伺服器在沒有核心恐慌的情況下凍結
我們正在執行一個 KVM 節點,該節點不規則地崩潰,表現出非常奇怪的行為。有趣的是,我們已經在另一個節點上遇到了這個問題,它每 1-2 週就崩潰一次。由於找不到硬體問題,我們開始將 VM 遷移到新節點。在我們遷移了 50% 的虛擬機大約一周後,新節點崩潰了,而“舊”節點從那時起執行良好(正常執行時間為 3 週,幾個月來我們沒有看到如此長的正常執行時間)。
當一個節點崩潰時,我們有時會在 Supermicro IPMI 上看到這些奇怪的東西:
我們還看到:
- “無信號”如伺服器已關機(當然不是,而且在 IPMI 首頁上也從未顯示為已關機)
- 正常的登錄螢幕或伺服器的其他正常輸出,但凍結
我們從未見過核心恐慌或崩潰前日誌中的至少一些消息,完全靜默,直到燈突然熄滅。
隨著問題從一台伺服器“轉移”到另一台伺服器(全新機器),我認為只剩下幾個選項:
- 特定的虛擬機導致問題
- 核心錯誤
- 關於我們設置的硬體問題
有關機器的更多資訊:
- CentOS 7 最新核心 (3.10.0-514.2.2.el7.x86_64)
- 帶冗餘電源的 Supermicro 機箱
- 具有最新 BIOS 版本的 Supermicro X10DRi / X10DRWi
- 英特爾至強 E5-2630 v3 / v4
- 512 GB DDR4 ECC RAM(三星伺服器 RAM)
- 145 台虛擬機正在執行(RAM 和 CPU 遠未飽和,這也要感謝 KSM)
- 軟體 RAID-10 8 / 16 SSD
有沒有人看到這種行為或者可以對控制台上奇怪的“消息”說些什麼?我從來沒有見過這樣的東西,甚至不知道我應該如何描述這個Google搜尋。目前我們還不太清楚下一步應該做什麼,因為它可能是一切。
提前致謝!
對此的簡短更新:升級到最新的 LTS 核心 (4.4.39) 後,伺服器穩定。現在正常執行時間 19 天,所以我想我們明白了。雖然我們並不真正知道根本原因,但我們認為 CentOS 7 核心 (3.10) 對於某些非常現代的硬體來說可能太舊了。由於我們無法提供有用的錯誤消息(最好的情況下就像核心崩潰),我們決定不向 CentOS 開發人員報告這件事。
這可能是 CPU 錯誤。英特爾發布了有關此問題的勘誤表,他們還為 E5 v3/v4 CPU 提供了微碼更新(日期程式碼 20170707)。CentOS 7.4 已經有了更新的微碼版本 0xb000021(在 CentOS 7.3 中是 0xb00001e)。更換微碼或升級到 7.4 可能會有所幫助。這個系統凍結我也遇到了很多麻煩。我更換了主機板(X10DRi)、RAM、CPU 和電源,但沒有成功。我不能確定這是否是解決方案,因為我更新了微碼後沒有足夠的正常執行時間。Supermicro 仍然沒有提供帶有目前英特爾微碼的更新 BIOS。您可能會從您的分銷商處獲得 X10DRI 的非官方預發布版本。