Memory

戴爾 PowerEdge C1100 MRC 故障 DIMM 已更換,新記憶體無法在之前出現故障的插槽中辨識

  • August 31, 2014

Dell PowerEdge C1100,通過 BMC IPMI 看到的 BIOS 版本 DS993B22,所有 18 個記憶體插槽都裝有 4 GB 模組。

發生以下記憶體錯誤:

MRC Event: Memory sensor, MRC Warning(1B.01): Lane failures during Dqs clean-up!
MRC Event: Memory sensor, MRC Warning(1C): Hardware Memtest failed and the DIMM is disabled. Node 1, Channel F, DIMM 0.
MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 0.
MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 1.
MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 2.

我用已知良好的模組替換了 Channel F、DIMM 0、1 和 2 模組,並啟動了系統。BIOS 和 syslog 均未顯示記憶體問題,但伺服器在 BIOS 和 POST 中僅顯示 72 GB 記憶體。

我關閉了伺服器並將所有通道 D 和通道 E 模組也替換為已知良好的模組,以便 CPU1 的所有模組都相同。啟動伺服器備份,同樣的問題,在 BIOS 和 POST 中僅顯示 72 GB。

BIOS 的記憶體模式部分顯示Independent模式設置。在上述記憶體錯誤之前,系統確實有 96 GB 的完整功能。

是否有設置啟用“禁用”插槽?我無法在 BIOS 或 BMC 螢幕中找到任何此類設置。

這些是此問題的 SEL 事件數據程式碼,一些程式碼出現了不止一次,但每個插槽出現一次:

AF2900 WARN_DQS_TEST_MINOR_CLEANUP
AF2B60 WARN_MEM_TEST
AF1760 WARN_MEM_TEST_DIMM_DISABLE
AF1764 WARN_MEM_TEST_DIMM_DISABLE
AF1768 WARN_MEM_TEST_DIMM_DISABLE

戴爾提供的如何解碼有關 PowerEdge C1100、C2100、C6100、C6105 和 C6145工具的 ECC 記憶體錯誤的原始數據不會對這些錯誤進行解碼。

作為參考,這裡是Dell PowerEdge C1100 硬體使用者手冊@Dell.com中的插槽佈局

C1100 系統板上的記憶體插槽位置

這個問題原來是過時的文件和使用者錯誤的組合。

每個 C1100 有 18 個記憶體插槽。每個插槽 4 GB RAM。

18 * 4 = 72

這些伺服器只有 72 GB 的 RAM,而不是 96 GB。由於伺服器在更換 RAM 後顯示 72 GB 正常執行,一切都很好。

引用自:https://serverfault.com/questions/624829