Memory

如何應對同一記憶體位置的重複 DRAM ECC 錯誤通知?

  • November 27, 2018

我今天早上醒來,對我來說是第一次;我的一個系統記錄了DRAM ECC error通知。事實上,其中三個,據我所知,記憶體位置完全相同(顯然,系統實際上並未命名為 localhost):

Aug 31 05:00:46 localhost kernel: [719099.816034] [Hardware Error]: CPU:0   MC4_STATUS[-|CE|MiscV|-|AddrV|-|-|CECC]: 0x9c6c40006b080a13
Aug 31 05:00:46 localhost kernel: [719099.816046] [Hardware Error]:         MC4_ADDR: 0x0000000641f49d20
Aug 31 05:00:46 localhost kernel: [719099.816051] [Hardware Error]: Northbridge Error (node 0): DRAM ECC error detected on the NB.
Aug 31 05:00:46 localhost kernel: [719099.816059] EDAC amd64 MC0: CE ERROR_ADDRESS= 0x641f49d20
Aug 31 05:00:46 localhost kernel: [719099.816070] EDAC MC0: CE page 0x641f49, offset 0xd20, grain 0, syndrome 0x6bd8, row 2, channel 0, label "": amd64_edac
Aug 31 05:00:46 localhost kernel: [719099.816075] [Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)

上述之後是系統時間05:10:46(719699.8160) 的相同通知,然後是 (720299.8160)的另一個通知,該通知05:20:46Over線上CPU:0 MC4_STATUS(狀態0xdc6c40006b080813)。到目前為止,系統一直很穩定,沒有記錄更多錯誤。系統活動正常,有問題的系統自 2014 年以來一直使用 ECC RAM 執行,但從未記錄任何 ECC 錯誤。

我不會太擔心單個可糾正的 ECC 錯誤。記錄的錯誤之間幾乎正好十分鐘(實際上低至幾微秒)可能只是用於每十分鐘進行一次 RAM 清理;不幸的是,在這個特定的系統上,擦洗間隔沒有作為設置公開。但是,同一記憶體位置(相同的值)中的三個連續錯誤CE ERROR_ADDRESS確實讓我有點擔心。

**更新:**自從我最初發布這個問題以來,有問題的主機已經記錄了幾個,所有的CE ERROR_ADDRESS.

**我應該認真對待這件事嗎?什麼是好的回應;**立即訂購更換 RAM 並安排盡快安裝它,將其視為只是暫時的故障,或者如果再次發生但現在沒有具體行動,則準備更換 RAM?

ECC RAM 往往用於關鍵伺服器。系統正在報告硬體故障。如果它不是一個關鍵系統,並且您不介意經歷它的所有內容可能會損壞,請務必等待並看看會發生什麼,但如果您關心您的數據而不是 RAM 的成本,請盡快更換有故障的 RAM。

我建議執行 memtest86+

http://www.memtest.org

它還作為標準包包含在某些發行版中。

它可以證實您對記憶體模組故障的懷疑。

引用自:https://serverfault.com/questions/871429