Linux
ECC chipkill 錯誤:哪個 DIMM?
我們經常讓伺服器中的 DIMM 出現故障,並在 syslog 中出現以下錯誤:
5 月 7 日 09:15:31 nolcgi303 核心:EDAC k8 MC0:一般匯流排錯誤:參與處理器(本地節點響應)、超時(無超時)記憶體事務類型(通用讀取)、記憶體或 i/o(記憶體訪問) , 記憶體級別(通用) 5 月 7 日 09:15:31 nolcgi303 核心:MC0:CE 頁 0xa0,偏移量 0x40,顆粒 8,綜合症 0xb50d,第 2 行,通道 0,標籤“”:k8_edac 5 月 7 日 09:15:31 nolcgi303 核心:MC0:CE - 無可用資訊:k8_edac 錯誤溢出集 5 月 7 日 09:15:31 nolcgi303 核心:EDAC k8 MC0:擴展錯誤程式碼:ECC chipkill x4 錯誤
我們可以使用 HP SmartStart CD 來確定哪個 DIMM 有錯誤,但這需要停止生產伺服器。有沒有一種巧妙的方法可以在伺服器啟動時找出哪個 DIMM 壞了?我們所有的伺服器都是執行 RHEL 5 的 HP 硬體。
除了使用 EDAC 程式碼之外,您還可以在機器線上時使用僅限 CLI 的 HP 實用程序來確定這一點。cli 版本比基於 web 的版本更輕量級,並且不需要您打開埠或讓守護程序不斷執行。
hpasmcli 將為您提供故障模組的磁帶和模組編號。比分析 EDAC 快一點。
例子:
hpasmcli -s "show dimm" DIMM Configuration ------------------ Cartridge #: 0 Module #: 1 Present: Yes Form Factor: 9h Memory Type: 13h Size: 1024 MB Speed: 667 MHz Status: Ok Cartridge #: 0 Module #: 2 Present: Yes Form Factor: 9h Memory Type: 13h Size: 1024 MB Speed: 667 MHz Status: Ok Cartridge #: 0 Module #: 3 Present: Yes Form Factor: 9h Memory Type: 13h Size: 1024 MB Speed: 667 MHz Status: Ok Cartridge #: 0 Module #: 4 Present: Yes Form Factor: 9h Memory Type: 13h Size: 1024 MB Speed: 667 MHz Status: Ok
失敗模組的狀態將改變。