Hp

HP DL380e Gen8 NMI 錯誤

  • May 7, 2021

我有一個帶有 P420 RAID 控制器的 HP DL380e Gen8,它在我以前的工作中每天 24 小時通電 7 個月,執行幾個 VM 時沒有任何問題。換工作後,我將家裡的伺服器關閉了大約 3 個月。我今天在添加 10Gbe 網卡 (HP NC523SFP) 後打開它,伺服器啟動正常,我登錄作業系統 (Centos 7),一切看起來都很好。大約 45 分鐘後,我聽到伺服器風扇以 100% 的速度旋轉,然後恢復正常,我連接了一個顯示器,並且出現了帶有 NMI 錯誤的紅屏當機。在 ILO 上檢查錯誤是指 PCI- E 插槽 1 提升卡 1,這是連接 P420 控制器的位置(10Gbe 在插槽 3 提升卡 1 上)。我以為問題是由 10Gbe 引起的,但在刪除它後,伺服器仍然出現紅屏當機。一世’ 我還嘗試將 10Gbe 移動到轉接卡另一側的 PCI-E 插槽上,但沒有任何改變,我還嘗試使用電池卸下智能記憶體模組並將 P420 移動到插槽 3。我可以檢查什麼? 我唯一沒有嘗試過的是在沒有連接硬碟驅動器和/或從 P420 移除背板電纜的情況下啟動。有可能在轉接卡的同一側有 10Gbe 卡損壞了 P420 控制器?當我第一次使用 10Gbe 啟動時,我記得有一條關於啟動磁碟/ROM 選項的消息,我之前沒有見過,我完全忽略了它。t 嘗試在沒有連接硬碟驅動器和/或從 P420 移除背板電纜的情況下啟動。有可能在轉接卡的同一側有 10Gbe 卡損壞了 P420 控制器?當我第一次使用 10Gbe 啟動時,我記得有一條關於啟動磁碟/ROM 選項的消息,我之前沒有見過,我完全忽略了它。t 嘗試在沒有連接硬碟驅動器和/或從 P420 移除背板電纜的情況下啟動。有可能在轉接卡的同一側有 10Gbe 卡損壞了 P420 控制器?當我第一次使用 10Gbe 啟動時,我記得有一條關於啟動磁碟/ROM 選項的消息,我之前沒有見過,我完全忽略了它。

RAID 控制器確實經常發生故障,所以如果它決定死在你身上,我不會太驚訝。

解決這些問題的最簡單方法是從最低啟動配置開始,您通常可以在大多數供應商的服務手冊中找到該配置。這本質上是 1 個 CPU、1 塊 RAM,沒有其他附加內容。然後你開始添加組件,直到你再次遇到類似的錯誤,這樣你就可以找到有故障的組件。

還要記住,電纜是半有源組件,我見過維修技術人員在故障組件是 PCI 轉接卡或 SAS 電纜時更換主機板和 RAID 控制器。

引用自:https://serverfault.com/questions/1003229