HP DL 380 上的新 RAM 導致 64 位 CentOS 出現錯誤

January 9, 2010

我向伺服器添加了新的 HP 記憶體，從 8 GB 增加到 32 GB。現在，我每隔幾秒就會在 /var/log/messages 中出現此錯誤消息。
   Jan  8 20:13:08 vmware01 kernel: EDAC MC0: CE row 2, channel 2,
label "": (Branch=1 DRAM-Bank=6 RDWR=Read RAS=13788 CAS=2840,
CE Err=0x2000 (Correctable Non-Mirrored Demand Data ECC))
我用Google搜尋了錯誤消息，但沒有運氣。有誰知道這意味著什麼以及如何解決它？
BIOS 和作業系統都看到所有 32 GB。
任何幫助將不勝感激。

該錯誤資訊基本上意味著您安裝的記憶體有故障。系統發現記憶體已損壞，ECC 能夠更正單個位錯誤並警告作業系統記憶體不正常的事實。
有問題的 DRAM 是 Bank 6 中的 DRAM（很可能是雙通道記憶體），因此請查看故障記憶體的位置。

我最近在使用 AMD CPU 的 IBM 刀片時遇到了這個問題。這是一個 64 位刀片，我使用 8 GB 和 32 位 RedHat 3 執行多年，這意味著作業系統只看到 4 GB。我將它升級到 64 位 RH 4 並開始出現非常相似的錯誤。我發現的研究表明，作業系統中的 EDAC 報告出現在版本 4 中的某個時間點，大約 4.5。
這意味著我不知道是 4-8 GB 部分還是現在報告問題的作業系統，所以我去 BIOS 執行測試。基本測試沒有顯示錯誤，但需要數小時才能執行的高級測試最終顯示了問題。將不同的 RAM 模組旋轉到不同的插槽表明我的 4 個中有 2 個是壞的，並且當它找到第一個時測試退出。將總共 2 GB 的記憶體放入具有 4 個不同模組的機器中，使機器執行良好。
多年來，如果沒有完全斷電，機器就不會重新啟動，這對於 HA 數據庫伺服器來說不是問題，但我也報告了這個問題。IBM 很好地改變了我報告的 2 個 RAM 模組和整個主機板，所以我不能發誓 RAM 修復了它。
底線：仔細檢查您的 RAM。您可以嘗試可啟動 RAM 測試，例如 OS 磁碟。看來標準 RAM 測試程序是 32 位的，因此它們不會測試超過 4 GB。一個 64 位作業系統磁碟可能包括一個。

引用自：https://serverfault.com/questions/101036

HP DL 380 上的新 RAM 導致 64 位 CentOS 出現錯誤

相關問答

評估不可糾正的 ECC 錯誤和回退方法

Cent OS：如何關閉或減少記憶體過度使用，這樣做是否安全？

為什麼“free”命令和“dmidecode”顯示不同的 RAM 值？

增加虛擬機物理記憶體的影響

linux/centos 定期崩潰

異常高的 dentry 記憶體使用率