Raid
RAID5 陣列問題 - 先複製數據或更換驅動器
我繼承瞭如下危急情況。
- 2 個 16 磁碟 RAID5 儲存系統(一個保存主數據,一個保存備份)
- 備份系統沒有監控,兩個磁碟發生故障,所以所有數據都失去了——不是一個大問題
- 主系統顯示 2 個存在介質錯誤的磁碟,一個保持穩定在 30 左右,另一個保持在 2,000 左右但緩慢增長(一周左右後為 2,100)
有更長期的計劃來使用更好的儲存、使用熱備件、實施更好的監控、設置鏡像、備份等等等,但當務之急是保護主數據,因為它對業務至關重要,但坐在 RAID5 陣列上,兩個磁碟顯示錯誤
我們基本上已經將選項歸結為以下之一
選項1
- 更換有 2,000 個介質錯誤的磁碟,讓 RAID5 陣列重建
- 完成後,換出另一個有媒體錯誤的磁碟
對此的主要擔憂是,在重建陣列時(24-48 小時?),系統中的冗餘為零,任何磁碟故障都意味著失去所有數據。
選項 2
- 保持 RAID5 陣列不變並將數據複製到新的儲存陣列上
對此的主要擔憂是,它需要比 RAID 重建更長的時間,因為文件系統有數百個數百萬個小文件,因此複製可能需要將近一個月才能完成,而不會影響正在使用這些文件的站點
我很想知道你會採取哪種方法,為什麼?這種級別的媒體錯誤是否令人擔憂?媒體錯誤的增長水平是否令人擔憂?
是的,我會擔心,考慮到您的情況,我會盡快安裝另一個系統並進行備份,因為任何重建嘗試很容易導致失去所有內容。
RAID 5 的有趣之處在於,您可能在另一個驅動器上有一個 URE,目前顯示還可以,因此即使您認為可以正常工作的磁碟也不能正常工作。因此,您的“重建錯誤”。
建立一個系統來複製您的數據並儘快開始備份這些文件。然後擔心重建伺服器。
…雖然個人而言,一旦您獲得備份並知道它很好,我會將您的伺服器完全更改為具有 RAID 10 或 6 的東西,重新開始…