Raid

RAID 無法重建 因失去硬碟而重建

  • June 9, 2016

首先我想說一下我的伺服器的raid配置。Intel RAID 10(4*1TB HDD) 兩個來自 wd, 1 個來自日立, 1 個來自希捷 + 1 個希捷作為熱備件 這就是最後一個硬碟希捷出現故障的問題, 即使有一個熱備件也沒有自動更換我找到了它並手動更換了熱備件代替故障硬碟。然後打開它,我發現它正在重建。後來它給出了一條錯誤消息“由於目標驅動器錯誤而導致重建失敗”然後我重新啟動了伺服器,由於我留下了一些工作,我無法在 RAID 列表中找到替換的硬碟。當我今天打開電源時,我從 BIOS 收到此錯誤消息,並且該硬碟也添加到此列表中,日誌是“如果您認為這些 PD 不包含所需的配置。請關閉系統電源,刪除這些 PD 並重新啟動。” 時間戳只有01,02,03。抱歉語言問題。

  1. 如果您的文件系統報告它們完好無損,並且數據沒有損壞,那麼您很幸運。**立即進行完整備份!**當您看到您的儲存系統出現問題時,您應該首先執行此操作,即行為異常。
  2. 我沒有完全了解您使用的是哪種 RAID 技術。英特爾不生產 RAID 晶片,它們提供重新命名的 LSI MegaRAID 或“英特爾矩陣儲存管理器”。前者很好,很奇怪有你描述的問題。後者是假RAID,眾所周知,它非常不穩定和不可靠。我只記得它在重建過程中真正倖存下來的少數案例,以及許多 IMSM RAID 幫助我們保存數據的案例,但更讓人頭疼。

在後一種情況下,我建議您不要修復目前設置,而是從 IMSM 遷移到真正的硬體 RAID 或完全軟體定義的陣列。當驅動器轉換為動態驅動器時,Windows 具有這種能力,而 Linux 軟體 RAID 以其靈活性和可靠性而聞名。

  1. 如果您不想從 fake-RAID 遷移,我建議您嘗試從備用驅動器中完全擦除元數據,然後再次將它們用作備用驅動器。這應該使系統的每個部分都忘記那些驅動器在這裡。您必須彈出備用電腦,連接到其他電腦並在那裡用零填充(在 Linux 中,我使用 dd if=/dev/zero of=/dev/sdX;無法為 Windows 提出任何解決方案,Google為此),然後可以再次在數組中嘗試。
  2. 忽略關於不完全相同驅動器的說法。所有冗餘陣列 MTBF 計算都假設驅動器偶爾會獨立當機。如果您在相同負載下使用來自同一供應商的相同驅動器(如在新伺服器中經常看到的那樣),它們將具有相同的製造特徵和缺陷,並且驅動器故障的原因將相同。因此,如果其中一個失敗了,您應該期望其他人很快就會失敗,即不獨立。如果您使用類似的驅動器,通常的陣列可靠性假設是完全錯誤的!我見過一些系統啟動了備用,但是在重建過程中其他一些驅動器死了,所以陣列只會使數據檢索變得更加困難,只是因為有人安裝了完全相同的驅動器!

但是,如果您故意使用不同的驅動器,則可以假定這些驅動器不具有相同的特性和缺陷。他們將真正獨立地失敗。只有在這種情況下,眾所周知的陣列可靠性計算和預期才是正確的!因此,如果您想要真正的冗餘,而不僅僅是擁有大量相同驅動器的貨架的迷人畫面,您最終將始終使用不同的驅動器。並用火殺死所有建議您使用“來自同一製造商和同一系列的相同驅動器”的人。

引用自:https://serverfault.com/questions/782862