硬體 RAID 控制器記憶體電池故障頻率/壽命?
我所在的環境包含許多配備Adaptec和LSI MegaRAID硬體 RAID 控制器的Supermicro伺服器。這些控制器包含電池支持的記憶體模組,以幫助提高寫入性能並保護傳輸中的數據。
一個常見的支持問題是 RAID 控制器電池故障。這會將陣列從回**寫模式轉換為直寫模式。當系統以降低的寫入速度執行時,顯然會對性能產生負面影響。這種情況一直持續到可以建立停機時間視窗以關閉系統電源並更換電池。
這對我們來說是非常正常的操作;幾乎每週都會在數千台物理伺服器上執行……我們甚至有充電站來準備更換電池,這樣就可以在沒有充電週期的情況下進行更換。
也許我被 HP ProLiant 伺服器和智能陣列 RAID 控制器的悠久歷史寵壞了,但 HP 系統的電池壽命通常為 4-6 年。他們最終在 2009 年左右淘汰了 RAID 電池的使用。它們被超級電容器支持的記憶體模組(快閃記憶體支持的寫入記憶體,或 FBWC)所取代,並且不需要更換、處置或冗長的初始充電週期。
由於我看到 Adaptec 和 LSI 控制器電池故障有時會出現在使用不到12 個月的系統上,我想知道這在其他環境中是否常見。
如果這很常見,那麼其他大型伺服器環境如何處理呢?
- 處理 RAID 電池更換的任何提示或技巧?
- 是否有任何配置參數可以提供幫助?
- 這對您環境中的操作有多大的破壞性?
- 機箱散熱和溫度不佳會是一個因素嗎?
- 我們做錯了什麼嗎?
- 戴爾 PERC 控制器由 LSI 製造。戴爾環境是否會遇到同樣短的電池壽命?
LSI 產品文獻概述了使用壽命超過 1 年的新一代電池。
HP ProLiant DL585 G2 伺服器具有 1000 天以上的正常執行時間和快樂的 RAID 電池…
# uptime 05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99 # hpacucli Cache Board Present: True Cache Status: OK Accelerator Ratio: 50% Read / 50% Write Total Cache Size: 512 MB Battery Pack Count: 1 Battery Status: OK
我懷疑您的 Supermicros 以某種方式損壞 - 可能是電池組過熱。最新的 LSI 將通過 MegaCLI 報告溫度 - 您可能希望在需要更換的伺服器上監控此值。
root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL BBU status for Adapter: 0 BatteryType: BBU [...] Temperature: 41 C
我見過一些帶有 LSI BBU 控制器的戴爾和富士通系統,它們都沒有每年更換電池組(除非你通過深度放電搞砸了電池組)。典型的使用壽命約為 3 至 5 年。