Raid

突襲 5 恢復過程

  • February 16, 2018

我最近剛剛設置了一個 3 驅動器 4TB MDRAID 5 陣列,用於鏡像和我們伺服器的線上備份。

我正在為未來的硬體(驅動器)故障做準備,並希望減輕 URE 的恢復故障。

通常我認為重建數組的過程是:

  1. 卸下並更換故障驅動器。
  2. 重建陣列

據我了解,在降級的 RAID 5 陣列中,您仍然可以訪問數據;但是,當故障驅動器已更換並且陣列正在重建時,如果檢測到 URE,恢復將失敗,並且陣列上的數據將立即變得不可讀和不可恢復。

如果我的理解是正確的,那麼在複製所有(可讀)數據之前恢復數組似乎並不謹慎。

這給我留下了一個過程:

  1. 從數組中複製數據。
  2. 卸下並更換故障驅動器。
  3. 重建陣列

是否有另一個過程可以減輕重建失敗(除了重建期間的第二個驅動器故障)?在不首先複製數據的情況下重建陣列是否安全?我的假設是否錯誤,例如在 URE 上重新建構失敗但數據在降級狀態下仍然可用?

我意識到 URE 對大多數人來說有點複雜和未知,因為它們與陣列故障有關。

結論是URE 會導致數組失敗,但不像文章中的數學所說的那麼頻繁。 但與所有其他 RAID 級別相比,RAID 5 仍然是一個非常容易發生故障的 RAID 陣列。

回到基礎,我們在 RAID 5 重建期間要緩解什麼? 我們正試圖在第二個驅動器發生故障之前恢復奇偶校驗。就是這樣! 這是無論如何都需要的努力。

這使我鞏固了我的清單

  1. 臨時從陣列複製數據,如果陣列很大且硬碟空間不可用,則磁帶最便宜。
  2. 卸下並更換故障驅動器。
  3. 從頭開始使用新驅動器建構新陣列。
  4. 從步驟 1 將文件重新載入到新陣列。

這假設陣列可以離線,但情況並非總是如此。但最終,有些人發現從頭開始建構新陣列並一舉回傳數據比嘗試在大型多 TB 陣列上完全重建更容易和更快。

此外,我懷疑與完全顛簸重建相比,在降級狀態下順序讀取數據並將數據從陣列中寫入一次,這將大大降低在複製數據之前發生第二個驅動器故障的機會,儘管機會仍然存在那裡。

最後,這一切都與風險管理有關,具體情況因過多而異。在我的特定情況下,我通常可以在 24 小時內找到時間來恢復我的陣列,因此在我的情況下,從新備份中重新備份、重建和恢復是最好的。

您可以通過實施3-2-1 備份計劃為驅動器故障和所有其他問題做好準備,我個人認為3-2-1應該適用於每個關鍵業務環境。

遵循3-2-1 規則將使生活更輕鬆,這顯然會花費 $,但結果應該值得。

您可以在這裡了解更多資訊:https ://knowledgebase.starwindsoftware.com/explanation/the-3-2-1-backup-rule/

https://www.veeam.com/blog/the-3-2-1-0-rule-to-high-availability.html

引用自:https://serverfault.com/questions/867212