Memory

ECC 記憶體錯誤導致伺服器隨機重啟

  • September 13, 2018

我在 Supermicro X10SLM-F / Xeon E3-1271 v3 上執行 ubuntu server 14.04

記憶體:SuperTalent 32GB DDR3 1600 ECC

大約每 4 天,Ubuntu 上的日誌將顯示以下內容:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

此後,伺服器立即以“電源循環”方式重新啟動。

當我查看 BIOS 事件日誌時,我看到:

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

錯誤的描述是:

Single Bit ECC Memory Error

Ubuntu 中的 ipmitool 顯示:

ipmitool sel elist
...
...
 1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
 1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

幾個問題:

  1. 如果 ECC 記憶體是自我糾正的,為什麼機器會自行重啟?
  2. 我是否可能缺少 BIOS 中的某些設置,這些設置會阻止機器重新啟動?
  3. 這顯然是記憶棒問題還是插槽問題或 CPU 問題?
  4. 如何阻止伺服器重新啟動?

謝謝你的任何建議。

系統不應在可糾正的記憶體錯誤時重新啟動。您是否通過 看到其他資訊/模式ipmitool sel elist?BMC 看門狗可以重啟系統,檢查是否通過ipmitool mc watchdog get. 由於您已經掌握了有關壞記憶體模組位置的資訊,請更換它,如果問題再次出現,則記憶體插槽可能有故障。

X10SLM-F您使用的 RAM 不在經過測試的 RAM 模組列表中 - 如果有可能,請將“問題”系統中的所有記憶體條替換為經過 Supermicro 測試的等效記憶體條。此外,請檢查您的 Ubuntu 版本支持的作業系統列表。

與 CMOS 設置相關Supermicro SUM,如果您安裝了 SUM 密鑰,您可以使用 來轉儲所有系統的 BIOS 設置,然後vimdiff查看定期重啟的系統與系統相比是否有任何不同的 CMOS 參數( s) 沒有。

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

引用自:https://serverfault.com/questions/699230