Raid

RAID5 陣列問題 - 先複製數據或更換驅動器

  • April 3, 2015

我繼承瞭如下危急情況。

  • 2 個 16 磁碟 RAID5 儲存系統(一個保存主數據,一個保存備份)
  • 備份系統沒有監控,兩個磁碟發生故障,所以所有數據都失去了——不是一個大問題
  • 主系統顯示 2 個存在介質錯誤的磁碟,一個保持穩定在 30 左右,另一個保持在 2,000 左右但緩慢增長(一周左右後為 2,100)

有更長期的計劃來使用更好的儲存、使用熱備件、實施更好的監控、設置鏡像、備份等等等,但當務之急是保護主數據,因為它對業務至關重要,但坐在 RAID5 陣列上,兩個磁碟顯示錯誤

我們基本上已經將選項歸結為以下之一

選項1

  • 更換有 2,000 個介質錯誤的磁碟,讓 RAID5 陣列重建
  • 完成後,換出另一個有媒體錯誤的磁碟

對此的主要擔憂是,在重建陣列時(24-48 小時?),系統中的冗餘為零,任何磁碟故障都意味著失去所有數據。

選項 2

  • 保持 RAID5 陣列不變並將數據複製到新的儲存陣列上

對此的主要擔憂是,它需要比 RAID 重建更長的時間,因為文件系統有數百個數百萬個小文件,因此複製可能需要將近一個月才能完成,而不會影響正在使用這些文件的站點

我很想知道你會採取哪種方法,為什麼?這種級別的媒體錯誤是否令人擔憂?媒體錯誤的增長水平是否令人擔憂?

是的,我會擔心,考慮到您的情況,我會盡快安裝另一個系統並進行備份,因為任何重建嘗試很容易導致失去所有內容。

RAID 5 的有趣之處在於,您可能在另一個驅動器上有一個 URE,目前顯示還可以,因此即使您認為可以正常工作的磁碟也不能正常工作。因此,您的“重建錯誤”。

建立一個系統來複製您的數據並儘快開始備份這些文件。然後擔心重建伺服器。

…雖然個人而言,一旦您獲得備份並知道它很好,我會將您的伺服器完全更改為具有 RAID 10 或 6 的東西,重新開始…

引用自:https://serverfault.com/questions/351474