HP DL 380 上的新 RAM 導致 64 位 CentOS 出現錯誤
我向伺服器添加了新的 HP 記憶體,從 8 GB 增加到 32 GB。現在,我每隔幾秒就會在 /var/log/messages 中出現此錯誤消息。
Jan 8 20:13:08 vmware01 kernel: EDAC MC0: CE row 2, channel 2, label "": (Branch=1 DRAM-Bank=6 RDWR=Read RAS=13788 CAS=2840, CE Err=0x2000 (Correctable Non-Mirrored Demand Data ECC))
我用Google搜尋了錯誤消息,但沒有運氣。有誰知道這意味著什麼以及如何解決它?
BIOS 和作業系統都看到所有 32 GB。
任何幫助將不勝感激。
該錯誤資訊基本上意味著您安裝的記憶體有故障。系統發現記憶體已損壞,ECC 能夠更正單個位錯誤並警告作業系統記憶體不正常的事實。
有問題的 DRAM 是 Bank 6 中的 DRAM(很可能是雙通道記憶體),因此請查看故障記憶體的位置。
我最近在使用 AMD CPU 的 IBM 刀片時遇到了這個問題。這是一個 64 位刀片,我使用 8 GB 和 32 位 RedHat 3 執行多年,這意味著作業系統只看到 4 GB。我將它升級到 64 位 RH 4 並開始出現非常相似的錯誤。我發現的研究表明,作業系統中的 EDAC 報告出現在版本 4 中的某個時間點,大約 4.5。
這意味著我不知道是 4-8 GB 部分還是現在報告問題的作業系統,所以我去 BIOS 執行測試。基本測試沒有顯示錯誤,但需要數小時才能執行的高級測試最終顯示了問題。將不同的 RAM 模組旋轉到不同的插槽表明我的 4 個中有 2 個是壞的,並且當它找到第一個時測試退出。將總共 2 GB 的記憶體放入具有 4 個不同模組的機器中,使機器執行良好。
多年來,如果沒有完全斷電,機器就不會重新啟動,這對於 HA 數據庫伺服器來說不是問題,但我也報告了這個問題。IBM 很好地改變了我報告的 2 個 RAM 模組和整個主機板,所以我不能發誓 RAM 修復了它。
底線:仔細檢查您的 RAM。您可以嘗試可啟動 RAM 測試,例如 OS 磁碟。看來標準 RAM 測試程序是 32 位的,因此它們不會測試超過 4 GB。一個 64 位作業系統磁碟可能包括一個。