HP Proliant G6 報告 SSD 驅動器故障 - 替代監控策略?
我想就幾天前我發現自己的一個有爭議的情況得到您的回饋。我的任務是使用 HP Proliant G6 進行開發,並在 RAID1 配置中使用 2 個新的(< 2 個月,以前從未使用過)**非 HP SSD。**它們被用於密集的面向開發的任務(每天大約寫入 500GB);RAID5 中也有正常 HDD,但我們將在此處討論 RAID1 陣列。
- 三星 SSD 840 PRO 系列
- PLEXTOR PX-256M5Pro
兩者的 smartctl 輸出可在此處獲得:https ://gist.github.com/anonymous/cf8a5208a7315440f796
相關的過去問題
Plextor 驅動器一直受到報告的過熱情況的影響,我認為這是因為它不是原裝元件
我曾經看到在偶爾的伺服器重新啟動後重建 RAID1,但無法解釋其原因。
失敗事件
幾天前,Plextor 磁碟被報告為“失敗”狀態:
physicaldrive 1I:1:1 (port 1I:box 1:bay 1, Solid State SATA, 256.0 GB, Failed)
假陽性?
因此我拔掉了它,檢查了 SMART 輸出並執行了一個完整的測試(參見上面的 smartctl 輸出)。測試通過了,更糟糕的是,將驅動器放回原位會提供功能完善的 RAID1 陣列。
這很尷尬。
替代監控?
我不知道如何讓 P410i 告訴我“失敗”狀態的具體原因是什麼(我認為不可能),而且我知道這些是非原裝 HP 元件(因此使我的付費 HP 支持無效),但是對於這個非關鍵任務伺服器,我想看看是否仍然可以繼續使用非 HP 磁碟並且仍然對其健康狀態進行某種監控。
你有什麼意見?我有3個問題:
- HP 控制器監控狀態是否應該僅在與原始元件一起使用時才可信?(這很簡單)
- 這些(完全非高質量)SSD客觀上是否健康?
- 我應該 100% 信任 SMART 測試的結果嗎?
提前致謝
您的 SSD 可能執行良好,但 HP Smart Array P410 RAID 控制器並非與每個SSD 都兼容。
特別是,某些 SSD 會向控制器報告不正確的溫度屬性,從而導致機箱風扇和系統散熱問題。此外,該控制器上使用的任何 SATA 設備都將從 6Gbps 降頻至 3Gbps 速度。所以你正在失去頻寬潛力。
顯然,這種組件組合是不匹配的。您可以使用與控制器一起使用的已知良好的 SSD(HP 品牌的 Sandisk/Pliant/Intel/Samsung/STEC),也可以嘗試使用 3rd 方驅動器,直到找到可以使用的驅動器。我推薦英特爾和 OWC。
我已經介紹了一些在這裡執行良好的驅動器選項:
和這裡: