Memory
戴爾 PowerEdge C1100 MRC 故障 DIMM 已更換,新記憶體無法在之前出現故障的插槽中辨識
Dell PowerEdge C1100,通過 BMC IPMI 看到的 BIOS 版本 DS993B22,所有 18 個記憶體插槽都裝有 4 GB 模組。
發生以下記憶體錯誤:
MRC Event: Memory sensor, MRC Warning(1B.01): Lane failures during Dqs clean-up! MRC Event: Memory sensor, MRC Warning(1C): Hardware Memtest failed and the DIMM is disabled. Node 1, Channel F, DIMM 0. MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 0. MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 1. MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 2.
我用已知良好的模組替換了 Channel F、DIMM 0、1 和 2 模組,並啟動了系統。BIOS 和 syslog 均未顯示記憶體問題,但伺服器在 BIOS 和 POST 中僅顯示 72 GB 記憶體。
我關閉了伺服器並將所有通道 D 和通道 E 模組也替換為已知良好的模組,以便 CPU1 的所有模組都相同。啟動伺服器備份,同樣的問題,在 BIOS 和 POST 中僅顯示 72 GB。
BIOS 的記憶體模式部分顯示
Independent
模式設置。在上述記憶體錯誤之前,系統確實有 96 GB 的完整功能。是否有設置啟用“禁用”插槽?我無法在 BIOS 或 BMC 螢幕中找到任何此類設置。
這些是此問題的 SEL 事件數據程式碼,一些程式碼出現了不止一次,但每個插槽出現一次:
AF2900 WARN_DQS_TEST_MINOR_CLEANUP AF2B60 WARN_MEM_TEST AF1760 WARN_MEM_TEST_DIMM_DISABLE AF1764 WARN_MEM_TEST_DIMM_DISABLE AF1768 WARN_MEM_TEST_DIMM_DISABLE
戴爾提供的如何解碼有關 PowerEdge C1100、C2100、C6100、C6105 和 C6145工具的 ECC 記憶體錯誤的原始數據不會對這些錯誤進行解碼。
作為參考,這裡是Dell PowerEdge C1100 硬體使用者手冊@Dell.com中的插槽佈局
這個問題原來是過時的文件和使用者錯誤的組合。
每個 C1100 有 18 個記憶體插槽。每個插槽 4 GB RAM。
18 * 4 = 72
這些伺服器只有 72 GB 的 RAM,而不是 96 GB。由於伺服器在更換 RAM 後顯示 72 GB 正常執行,一切都很好。