Memory

/var/log/messages 顯示大量 CE Err=0x2000 即使在未使用的銀行(插槽)上

  • September 4, 2013

我最近不得不用使用過的 FBDIMM DDR2 RAM 升級舊伺服器(HP ML350G5)(我住的地方找不到新的)。重啟後 /var/log/messages 一直受到 CE Err=0x2000 錯誤的困擾,但係統似乎很穩定。我猜ECC正在處理事情。

沒有意義的是,即使我只使用 2 個插槽(插槽 0 和 3),錯誤日誌也會在所有銀行上顯示相同的錯誤。

安裝的 RAM 兼容在 Centos 5.5 32 位上執行的 2x4GB Kingstone 模組。我正在等待一些可用的停機時間來安裝 PAE 核心以利用 8GB,但我沒想到會出現錯誤。

其他文章建議執行 memtest,但我想分享一下,看看其他人是否遇到過類似的錯誤,指向未使用的 RAM 插槽。這些錯誤是否與安裝的 RAM 比 32 位可以考慮的更多(沒有執行 64 位或 PAE 核心)有關?

錯誤日誌範例如下。

8 月 14 日 21:00:35 umm 核心:EDAC MC0:CE 行 0,通道 0,標籤“”:(Branch=0 DRAM-Bank=4 RDWR=Read RAS=12405 CAS=506,CE Err=0x2000(可糾正非-鏡像需求數據ECC))

8 月 14 日 21:00:36 umm 核心:EDAC MC0:CE 行 0,通道 0,標籤“”:(Branch=0 DRAM-Bank=2 RDWR=Read RAS=3505 CAS=4,CE Err=0x2000(可糾正非-鏡像需求數據ECC))

8 月 14 日 21:00:37 umm 核心:EDAC MC0:CE 行 0,通道 0,標籤“”:(Branch=0 DRAM-Bank=6 RDWR=Read RAS=12404 CAS=504,CE Err=0x2000(可糾正非-鏡像需求數據ECC))

…所有 DRAM-Bank= 值都出現在日誌中(從 0 到 7)

如果您還沒有安裝 PAE 核心,那麼您目前正在執行什麼核心???

由於記憶體為 ECC 記憶體,memtest 可能無法辨識錯誤

如果有任何無法糾正的問題,請嘗試執行edac-util -v ,您將能夠辨識壞記憶體行。

根據日誌,您在系統中收到 CE(已糾正錯誤)消息。Ans 你可以忽略它們,編輯 grub.conf 並將 mce=dont_log_ce 添加到核心行,這將停止更正錯誤消息以登錄文件。

但是在系統中執行記憶體檢查總是好的。

引用自:https://serverfault.com/questions/531110