Raid

“在 RAID 控制器上檢測到單位 ECC 錯誤”是什麼意思?

  • August 23, 2014

我有一台帶有 Perc H710P RAID 控制器和 4 個連接的 3TB 驅動器的戴爾 T7600。在過去的幾個月裡,RAID 控制器在啟動時間歇性地報告錯誤:“找不到啟動設備”、“基本埠的適配器沒有響應”、磁槃經常報告為失去或故障。

從那以後,我更換了 RAID 控制器、4 個硬碟驅動器,最後更換了系統的主機板。

更換主機板並重新啟動幾次後,我得到了錯誤

Single bit ECC errors were detected on the RAID controller.
Please contact technical support to resolve this issue.

重新啟動大約 20 次後,我還沒有看到 ECC 錯誤。系統看起來還不錯,除了磁碟風扇有時會在系統完全空閒時開始全力吹動,直到我重新啟動才停止。

RAID控制器記憶體中的ECC錯誤嗎?或者,RAID 控制器是否在系統記憶體中映射,而 ECC 錯誤是否真的在系統記憶體中?或者,是否存在 RAID 控制器中的 1GB 記憶體中的 ECC 錯誤?

此錯誤對應於控制器上的記憶體模組。此時,您可能需要更換 RAM 或實際的 PERC 控制器。這應該是標準的保修工作。

RAID 控制器消息“檢測到單位錯誤”只是提供資訊。這不是硬體錯誤,也不是聯繫製造商請求修復的適當警告。大多數公開可用的記憶體 (RAM) 確實會隨機出現錯誤(不包括軍事硬體)。在無法接受的計算環境中,提供了一種解決方案:ECC。我相信這是檢測單個位錯誤並恢復它們的最便宜和最簡單的解決方案。因此,嚴重錯誤是發生多於 1 位的錯誤消息。這可能需要其他技術,例如“ChipKill”(因此硬體板可以禁用不再受信任的晶片)。檢測到單位錯誤消息通常會觸發對內部硬體計數器/系統資料庫的更新。只是為了保持一些統計數據。但它們並不是證明硬體更換合理的錯誤。

單位錯誤的數量可能會有所不同。我對這個主題感興趣已經 16 年了。而且我已經意識到數量呈指數增長。該值僅與另一個參數相關:系統執行的時間量(通電時間)。值得一提的兩個門檻值是 18 個月(指數曲線上升)和 36 個月(開始出現兩位錯誤)。其他參數已分析,但沒有任何相關性:品牌、型號、“便宜/昂貴的產品”、熱量、讀/寫操作。關鍵是時間(“開機時間”)。這也可能表明使用了適用於計算硬體的“計劃淘汰”策略。因此資本主義系統可能需要每 3 年或最多 6 年更新一次計算硬體(加上維護預算)。

您還提到了我認為與 ECC 問題(您的問題)沒有直接關係的其他錯誤。

引用自:https://serverfault.com/questions/574068