Linux

ECC chipkill 錯誤:哪個 DIMM?

  • December 10, 2009

我們經常讓伺服器中的 DIMM 出現故障,並在 syslog 中出現以下錯誤:

5 月 7 日 09:15:31 nolcgi303 核心:EDAC k8 MC0:一般匯流排錯誤:參與處理器(本地節點響應)、超時(無超時)記憶體事務類型(通用讀取)、記憶體或 i/o(記憶體訪問) , 記憶體級別(通用)
5 月 7 日 09:15:31 nolcgi303 核心:MC0:CE 頁 0xa0,偏移量 0x40,顆粒 8,綜合症 0xb50d,第 2 行,通道 0,標籤“”:k8_edac
5 月 7 日 09:15:31 nolcgi303 核心:MC0:CE - 無可用資訊:k8_edac 錯誤溢出集
5 月 7 日 09:15:31 nolcgi303 核心:EDAC k8 MC0:擴展錯誤程式碼:ECC chipkill x4 錯誤

我們可以使用 HP SmartStart CD 來確定哪個 DIMM 有錯誤,但這需要停止生產伺服器。有沒有一種巧妙的方法可以在伺服器啟動時找出哪個 DIMM 壞了?我們所有的伺服器都是執行 RHEL 5 的 HP 硬體。

除了使用 EDAC 程式碼之外,您還可以在機器線上時使用僅限 CLI 的 HP 實用程序來確定這一點。cli 版本比基於 web 的版本更輕量級,並且不需要您打開埠或讓守護程序不斷執行。

hpasmcli 將為您提供故障模組的磁帶和模組編號。比分析 EDAC 快一點。

例子:

hpasmcli -s "show dimm"

DIMM Configuration
------------------
Cartridge #: 0
Module #: 1
Present: Yes
Form Factor: 9h
Memory Type: 13h
Size: 1024 MB
Speed: 667 MHz
Status: Ok

Cartridge #: 0
Module #: 2
Present: Yes
Form Factor: 9h
Memory Type: 13h
Size: 1024 MB
Speed: 667 MHz
Status: Ok

Cartridge #: 0
Module #: 3
Present: Yes
Form Factor: 9h
Memory Type: 13h
Size: 1024 MB
Speed: 667 MHz
Status: Ok

Cartridge #: 0
Module #: 4
Present: Yes
Form Factor: 9h
Memory Type: 13h
Size: 1024 MB
Speed: 667 MHz
Status: Ok

失敗模組的狀態將改變。

引用自:https://serverfault.com/questions/5672