Raid

如果遇到 URE 會怎樣?

  • December 27, 2017

關於 hdd URE,我知道以下幾點:

  1. 由於某些原因,當硬碟讀取 FEC(Foward Error Correction data)無法糾正該扇區上的錯誤的扇區時,我們遇到了 URE。
  2. 我們遇到 URE 的評級非常低,但仍然存在。
  3. 在重建 RAID 5 陣列時,有時會發生這種情況,並且重建進度會停止。

但我還有一些問題:

  1. 如果只有一個磁碟,會發生什麼?硬體/文件系統報告錯誤,我們失去了文件?或者我們得到的文件有錯誤的數據?
  2. 將一些數據重寫到該 URE 扇區可以使該扇區變得正常嗎?還是我們必須使用 HDD 製造商提供的一些實用程序並重新映射另一個備用扇區?
  3. 如果在我們鏡像/重新鏡像 RAID 1/10 陣列時發生這種情況,RAID 控制器會做什麼?停止鏡像程序?或者只是將不正確的數據複製到另一個磁碟?

感謝您的回答,問題1&2已解決。

但是第三個問題我的意思是,如果在通過添加另一個新磁碟或更換 RAID 1/10 陣列中的故障磁碟將單個 HDD 轉換為 RAID 1 陣列時遇到 URE,則沒有冗餘來糾正錯誤。它會使用錯誤數據完成鏡像/重新鏡像進度嗎?或者停止像 RAID 5 重建這樣的進展?

  1. 對於單個磁碟,一個不可恢復的錯誤就是這樣 - 它無法完成,它會報告給文件系統,隨後會報告給試圖讀取文件的應用程序。一般來說,最好是得到一個明確的錯誤而不是不可靠的數據。
  2. 寫入不可讀扇區將修復物理扇區(例如寫入因斷電而中斷時的軟錯誤),或者驅動器會將邏輯扇區映射到其備用池之一。這由驅動器自行決定發生,通常不是使用者/驅動器可選擇的。
  3. RAID 控制器很可能會修復扇區 - 從鏡像或通過從冗餘集中重建數據。當在鏡像或重建過程中出現(另一個)讀取錯誤阻止了此修復時,錯誤仍然存在並且陣列損壞。一些 RAID 集可以修復多個錯誤(RAID 6 或一些嵌套的 RAID),但是一旦錯誤堆積起來,你就不走運了。

確保錯誤不會堆積在很少使用的扇區上很重要——當扇區數月甚至數年未讀時,它們可能會變成無法糾正的錯誤。因此,請確保您啟用數據清理、媒體巡查、巡查讀取或任何在您的硬體上呼叫的功能,以定期檢查所有數據。這樣,您可以確保在需要時重建工作。

有些人報告說,在重建過程中,由於壓力,額外的驅動器開始出現故障,但我發現這是一個神話。驅動器只是偶然發現過時的累積錯誤。您甚至可以對非常舊的驅動器施加壓力數天而不會出現任何問題。

引用自:https://serverfault.com/questions/889668