Memory
ECC 記憶體錯誤導致伺服器隨機重啟
我在 Supermicro X10SLM-F / Xeon E3-1271 v3 上執行 ubuntu server 14.04
記憶體:SuperTalent 32GB DDR3 1600 ECC
大約每 4 天,Ubuntu 上的日誌將顯示以下內容:
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1 {1}[Hardware Error]: It has been corrected by h/w and requires no further action {1}[Hardware Error]: event severity: corrected {1}[Hardware Error]: Error 0, type: corrected {1}[Hardware Error]: fru_text: CorrectedErr {1}[Hardware Error]: section_type: memory error [Firmware Warn]: error section length is too small
此後,伺服器立即以“電源循環”方式重新啟動。
當我查看 BIOS 事件日誌時,我看到:
DATE TIME ERROR CODE SEVERITY 06/13/15 13:13:38 Smbios 0x02 P1-DIMMB2
錯誤的描述是:
Single Bit ECC Memory Error
Ubuntu 中的 ipmitool 顯示:
ipmitool sel elist ... ... 1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8 1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8
幾個問題:
- 如果 ECC 記憶體是自我糾正的,為什麼機器會自行重啟?
- 我是否可能缺少 BIOS 中的某些設置,這些設置會阻止機器重新啟動?
- 這顯然是記憶棒問題還是插槽問題或 CPU 問題?
- 如何阻止伺服器重新啟動?
謝謝你的任何建議。
系統不應在可糾正的記憶體錯誤時重新啟動。您是否通過 看到其他資訊/模式
ipmitool sel elist
?BMC 看門狗可以重啟系統,檢查是否通過ipmitool mc watchdog get
. 由於您已經掌握了有關壞記憶體模組位置的資訊,請更換它,如果問題再次出現,則記憶體插槽可能有故障。X10SLM-F您使用的 RAM 不在經過測試的 RAM 模組列表中 - 如果有可能,請將“問題”系統中的所有記憶體條替換為經過 Supermicro 測試的等效記憶體條。此外,請檢查您的 Ubuntu 版本支持的作業系統列表。
與 CMOS 設置相關
Supermicro SUM
,如果您安裝了 SUM 密鑰,您可以使用 來轉儲所有系統的 BIOS 設置,然後vimdiff
查看定期重啟的系統與系統相比是否有任何不同的 CMOS 參數( s) 沒有。sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf