Monitoring

HP Proliant G6 報告 SSD 驅動器故障 - 替代監控策略?

  • December 10, 2014

我想就幾天前我發現自己的一個有爭議的情況得到您的回饋。我的任務是使用 HP Proliant G6 進行開發,並在 RAID1 配置中使用 2 個新的(< 2 個月,以前從未使用過)**非 HP SSD。**它們被用於密集的面向開發的任務(每天大約寫入 500GB);RAID5 中也有正常 HDD,但我們將在此處討論 RAID1 陣列。

  • 三星 SSD 840 PRO 系列
  • PLEXTOR PX-256M5Pro

兩者的 smartctl 輸出可在此處獲得:https ://gist.github.com/anonymous/cf8a5208a7315440f796

相關的過去問題

Plextor 驅動器一直受到報告的過熱情況的影響,我認為這是因為它不是原裝元件

我曾經看到在偶爾的伺服器重新啟動後重建 RAID1,但無法解釋其原因。

失敗事件

幾天前,Plextor 磁碟被報告為“失敗”狀態: physicaldrive 1I:1:1 (port 1I:box 1:bay 1, Solid State SATA, 256.0 GB, Failed)

假陽性?

因此我拔掉了它,檢查了 SMART 輸出並執行了一個完整的測試(參見上面的 smartctl 輸出)。測試通過了,更糟糕的是,將驅動器放回原位會提供功能完善的 RAID1 陣列。

這很尷尬。

替代監控?

我不知道如何讓 P410i 告訴我“失敗”狀態的具體原因是什麼(我認為不可能),而且我知道這些是非原裝 HP 元件(因此使我的付費 HP 支持無效),但是對於這個非關鍵任務伺服器,我想看看是否仍然可以繼續使用非 HP 磁碟並且仍然對其健康狀態進行某種監控。

你有什麼意見?我有3個問題:

  • HP 控制器監控狀態是否應該僅在與原始元件一起使用時才可信?(這很簡單)
  • 這些(完全非高質量)SSD客觀上是否健康?
  • 我應該 100% 信任 SMART 測試的結果嗎?

提前致謝

您的 SSD 可能執行良好,但 HP Smart Array P410 RAID 控制器並非與每個SSD 都兼容。

特別是,某些 SSD 會向控制器報告不正確的溫度屬性,從而導致機箱風扇和系統散熱問題。此外,該控制器上使用的任何 SATA 設備都將從 6Gbps 降頻至 3Gbps 速度。所以你正在失去頻寬潛力。

顯然,這種組件組合是不匹配的。您可以使用與控制器一起使用的已知良好的 SSD(HP 品牌的 Sandisk/Pliant/Intel/Samsung/STEC),也可以嘗試使用 3rd 方驅動器,直到找到可以使用的驅動器。我推薦英特爾和 OWC。

我已經介紹了一些在這裡執行良好的驅動器選項:

SSD 驅動器是否與機械驅動器一樣可靠(2013 年)?

和這裡:

HP 儲存陣列 - 多通道?

引用自:https://serverfault.com/questions/650498