ECC chipkill 錯誤：哪個 DIMM？

December 10, 2009

我們經常讓伺服器中的 DIMM 出現故障，並在 syslog 中出現以下錯誤：
5 月 7 日 09:15:31 nolcgi303 核心：EDAC k8 MC0：一般匯流排錯誤：參與處理器（本地節點響應）、超時（無超時）記憶體事務類型（通用讀取）、記憶體或 i/o（記憶體訪問） , 記憶體級別（通用）
5 月 7 日 09:15:31 nolcgi303 核心：MC0：CE 頁 0xa0，偏移量 0x40，顆粒 8，綜合症 0xb50d，第 2 行，通道 0，標籤“”：k8_edac
5 月 7 日 09:15:31 nolcgi303 核心：MC0：CE - 無可用資訊：k8_edac 錯誤溢出集
5 月 7 日 09:15:31 nolcgi303 核心：EDAC k8 MC0：擴展錯誤程式碼：ECC chipkill x4 錯誤
我們可以使用 HP SmartStart CD 來確定哪個 DIMM 有錯誤，但這需要停止生產伺服器。有沒有一種巧妙的方法可以在伺服器啟動時找出哪個 DIMM 壞了？我們所有的伺服器都是執行 RHEL 5 的 HP 硬體。

除了使用 EDAC 程式碼之外，您還可以在機器線上時使用僅限 CLI 的 HP 實用程序來確定這一點。cli 版本比基於 web 的版本更輕量級，並且不需要您打開埠或讓守護程序不斷執行。
hpasmcli 將為您提供故障模組的磁帶和模組編號。比分析 EDAC 快一點。
例子：
hpasmcli -s "show dimm"

DIMM Configuration
------------------
Cartridge #: 0
Module #: 1
Present: Yes
Form Factor: 9h
Memory Type: 13h
Size: 1024 MB
Speed: 667 MHz
Status: Ok

Cartridge #: 0
Module #: 2
Present: Yes
Form Factor: 9h
Memory Type: 13h
Size: 1024 MB
Speed: 667 MHz
Status: Ok

Cartridge #: 0
Module #: 3
Present: Yes
Form Factor: 9h
Memory Type: 13h
Size: 1024 MB
Speed: 667 MHz
Status: Ok

Cartridge #: 0
Module #: 4
Present: Yes
Form Factor: 9h
Memory Type: 13h
Size: 1024 MB
Speed: 667 MHz
Status: Ok
失敗模組的狀態將改變。

引用自：https://serverfault.com/questions/5672

ECC chipkill 錯誤：哪個 DIMM？

相關問答

如何應對同一記憶體位置的重複 DRAM ECC 錯誤通知？

應該有 256GB RAM，但係統只顯示 220GB

中端伺服器主機板推薦（linux）

評估不可糾正的 ECC 錯誤和回退方法

在購買伺服器 RAM 之前，我需要了解哪些 RAM 選項？

伺服器是否需要啟用 ECC ram 的 GPU，或者普通的 gpu 在伺服器中可以正常工作嗎？