如何應對同一記憶體位置的重複 DRAM ECC 錯誤通知？

November 27, 2018

我今天早上醒來，對我來說是第一次；我的一個系統記錄了DRAM ECC error通知。事實上，其中三個，據我所知，記憶體位置完全相同（顯然，系統實際上並未命名為 localhost）：
Aug 31 05:00:46 localhost kernel: [719099.816034] [Hardware Error]: CPU:0   MC4_STATUS[-|CE|MiscV|-|AddrV|-|-|CECC]: 0x9c6c40006b080a13
Aug 31 05:00:46 localhost kernel: [719099.816046] [Hardware Error]:         MC4_ADDR: 0x0000000641f49d20
Aug 31 05:00:46 localhost kernel: [719099.816051] [Hardware Error]: Northbridge Error (node 0): DRAM ECC error detected on the NB.
Aug 31 05:00:46 localhost kernel: [719099.816059] EDAC amd64 MC0: CE ERROR_ADDRESS= 0x641f49d20
Aug 31 05:00:46 localhost kernel: [719099.816070] EDAC MC0: CE page 0x641f49, offset 0xd20, grain 0, syndrome 0x6bd8, row 2, channel 0, label "": amd64_edac
Aug 31 05:00:46 localhost kernel: [719099.816075] [Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)
上述之後是系統時間05:10:46(719699.8160) 的相同通知，然後是 (720299.8160)的另一個通知，該通知05:20:46也Over線上CPU:0 MC4_STATUS（狀態0xdc6c40006b080813）。到目前為止，系統一直很穩定，沒有記錄更多錯誤。系統活動正常，有問題的系統自 2014 年以來一直使用 ECC RAM 執行，但從未記錄任何 ECC 錯誤。
我不會太擔心單個可糾正的 ECC 錯誤。記錄的錯誤之間幾乎正好十分鐘（實際上低至幾微秒）可能只是用於每十分鐘進行一次 RAM 清理；不幸的是，在這個特定的系統上，擦洗間隔沒有作為設置公開。但是，同一記憶體位置（相同的值）中的三個連續錯誤CE ERROR_ADDRESS確實讓我有點擔心。
**更新：**自從我最初發布這個問題以來，有問題的主機已經記錄了幾個，所有的CE ERROR_ADDRESS.
**我應該認真對待這件事嗎？什麼是好的回應；**立即訂購更換 RAM 並安排盡快安裝它，將其視為只是暫時的故障，或者如果再次發生但現在沒有具體行動，則準備更換 RAM？

ECC RAM 往往用於關鍵伺服器。系統正在報告硬體故障。如果它不是一個關鍵系統，並且您不介意經歷它的所有內容可能會損壞，請務必等待並看看會發生什麼，但如果您關心您的數據而不是 RAM 的成本，請盡快更換有故障的 RAM。

我建議執行 memtest86+
http://www.memtest.org
它還作為標準包包含在某些發行版中。
它可以證實您對記憶體模組故障的懷疑。

引用自：https://serverfault.com/questions/871429

如何應對同一記憶體位置的重複 DRAM ECC 錯誤通知？

相關問答

在購買伺服器 RAM 之前，我需要了解哪些 RAM 選項？

ECC chipkill 錯誤：哪個 DIMM？

為什麼伺服器只有在兩個 CPU 都安裝時才拋出 Q Code 19？

VMware - vSphere 中的持久“主機記憶體狀態”警報

“桌面” RAM 可以在機架式伺服器中工作嗎？

如何檢查 RAM 是否在 ECC 模式下執行？