Centos
這是正在記錄的記憶體故障嗎(CentOS Web 伺服器)
$ sudo tail /var/log/messages Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
如您所見,這是以驚人的速度記錄的,但我不了解 EDAC。據我了解,這可能表明 RAM 棒有故障,這看起來可能嗎?
我知道這沒什麼大不了的,我還能做些什麼來闡明這一點?這是一個實時伺服器,因此我無法重新啟動它或將其輕鬆刪除。
我希望我正在執行的 EDAC 程式碼支持我的伺服器的 ECC 晶片!嘗試
dmidecode -t memory
查看您擁有的 ECC 硬體。在您的日誌中,您會收到來自 ECC 晶片的通知;如果您的晶片不被支持(比如我的!),您將獲得無聲的 ECC 更正。在您的情況下,發生了 ECC 更正**,並且**您也收到了通知,因為您有支持。
一開始我會去換那個記憶棒。另一方面,您的通道可能有故障,或者處理器核心有故障。我曾經用 memtest86.org 診斷過這樣的問題(原來的 memtest86 有 SMP 支持,試試 memtest86+)。
在 BIOS 中禁用 ECC,使用磁片/USB 記憶棒啟動 memtest86,然後查看是否有一堆地址連續被標記:如果發生這種情況,可能是記憶體通道問題。