伺服器在沒有核心恐慌的情況下凍結

March 31, 2019

我們正在執行一個 KVM 節點，該節點不規則地崩潰，表現出非常奇怪的行為。有趣的是，我們已經在另一個節點上遇到了這個問題，它每 1-2 週就崩潰一次。由於找不到硬體問題，我們開始將 VM 遷移到新節點。在我們遷移了 50% 的虛擬機大約一周後，新節點崩潰了，而“舊”節點從那時起執行良好（正常執行時間為 3 週，幾個月來我們沒有看到如此長的正常執行時間）。
當一個節點崩潰時，我們有時會在 Supermicro IPMI 上看到這些奇怪的東西：

我們還看到：
“無信號”如伺服器已關機（當然不是，而且在 IPMI 首頁上也從未顯示為已關機）
正常的登錄螢幕或伺服器的其他正常輸出，但凍結
我們從未見過核心恐慌或崩潰前日誌中的至少一些消息，完全靜默，直到燈突然熄滅。
隨著問題從一台伺服器“轉移”到另一台伺服器（全新機器），我認為只剩下幾個選項：
特定的虛擬機導致問題
核心錯誤
關於我們設置的硬體問題
有關機器的更多資訊：
CentOS 7 最新核心 (3.10.0-514.2.2.el7.x86_64)
帶冗餘電源的 Supermicro 機箱
具有最新 BIOS 版本的 Supermicro X10DRi / X10DRWi
英特爾至強 E5-2630 v3 / v4
512 GB DDR4 ECC RAM（三星伺服器 RAM）
145 台虛擬機正在執行（RAM 和 CPU 遠未飽和，這也要感謝 KSM）
軟體 RAID-10 8 / 16 SSD
有沒有人看到這種行為或者可以對控制台上奇怪的“消息”說些什麼？我從來沒有見過這樣的東西，甚至不知道我應該如何描述這個Google搜尋。目前我們還不太清楚下一步應該做什麼，因為它可能是一切。
提前致謝！

對此的簡短更新：升級到最新的 LTS 核心 (4.4.39) 後，伺服器穩定。現在正常執行時間 19 天，所以我想我們明白了。雖然我們並不真正知道根本原因，但我們認為 CentOS 7 核心 (3.10) 對於某些非常現代的硬體來說可能太舊了。由於我們無法提供有用的錯誤消息（最好的情況下就像核心崩潰），我們決定不向 CentOS 開發人員報告這件事。

這可能是 CPU 錯誤。英特爾發布了有關此問題的勘誤表，他們還為 E5 v3/v4 CPU 提供了微碼更新（日期程式碼 20170707）。CentOS 7.4 已經有了更新的微碼版本 0xb000021（在 CentOS 7.3 中是 0xb00001e）。更換微碼或升級到 7.4 可能會有所幫助。這個系統凍結我也遇到了很多麻煩。我更換了主機板（X10DRi）、RAM、CPU 和電源，但沒有成功。我不能確定這是否是解決方案，因為我更新了微碼後沒有足夠的正常執行時間。Supermicro 仍然沒有提供帶有目前英特爾微碼的更新 BIOS。您可能會從您的分銷商處獲得 X10DRI 的非官方預發布版本。

引用自：https://serverfault.com/questions/822479

伺服器在沒有核心恐慌的情況下凍結

相關問答

使用舊伺服器硬體有哪些風險？

是否有與 linux 兼容的 RAID/HBA 卡的列表？

伺服器因“rcu_sched 檢測到 CPU/任務停頓”而凍結

C602 晶片組和 PCIe Gen3

如何確定 HugePages 計數？

伺服器級硬體需要燒錄記憶體嗎？