Ecc

我應該如何認真對待 ECC 可糾正錯誤警告?

  • June 30, 2014

我有一堆 Sun X2200-M2 伺服器。這些伺服器具有 ECC 記憶體。

在其中一些伺服器中,我在 eLOM 中收到有關“檢測到可糾正的 ECC 錯誤”的警告,例如:

# ssh regress11 ipmitool sel elist
  1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
  2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

…一些比其他更頻繁。

這個特定係統上的核心也會拋出 EDAC 錯誤,儘管其頻率遠高於 eLOM 記錄 ECC 事件的頻率:

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

現在,如果伺服器檢測到不可糾正的 ECC,系統會重置,很明顯這是不好的,移除/更換已辨識的棒或對可以糾正問題。

但我在想,如果錯誤是可糾正的,那麼就不會立即出現問題——我可以將其視為警告,並準備好在不可糾正的錯誤開始發生時拉動棒/對嗎?

取決於您收到錯誤的頻率。由於各種原因,ECC 平均每年必須糾正一次單比特錯誤。如果你得到它們的速度比這快得多,或者它們是多位錯誤,你應該擔心(我會盡快更換 RAM)。

此外,ECC 並不完美。累積誤差有可能通過ECC;這將顯示為作業系統崩潰或類似問題。

引用自:https://serverfault.com/questions/144151