Raid

為什麼 RAID5 重建會失敗?

  • May 2, 2017

我有一個帶有 ServeRaid 控制器和兩個 RAID5 陣列的 IBM System x3650 伺服器,每個陣列由 3 個磁碟組成。

昨天,一個磁碟出現故障(保存數據的是 Raid 陣列,系統位於 sound 陣列上)。我天真地相信 RAID 控制器會重建陣列。我關閉了伺服器,用新的類似磁碟替換了故障磁碟。我在控制器 BIOS 中啟動,在那裡我可以看到它辨識出新磁碟並準備好重建(我無事可做,一切都是自動的)。我啟動了伺服器並重建了陣列。

今天早上一切似乎都很好。重建完成,陣列似乎完好無損。僅僅幾個小時後,mysql 服務因數據庫損壞而崩潰。我設法部分轉儲數據並從備份中恢復其餘部分。我以為我沒事。

但後來我發現一些活動日誌文件已損壞:它們包含來自不同隨機文件的塊。如果我正確地理解了這種情況,那麼只有自重建開始後修改的文件才會損壞,但我還不能 100% 確定這一點。不知何故,重建一定損壞了數據。

我問這個問題是為了從錯誤中學習。希望下次不要再…

重建失敗的原因是什麼?下次我能做的更好嗎?

重建期間是否必須從網路中切斷伺服器?我想,控制器應該同時管理重建並進行普通的讀​​寫。

或者這不應該永遠不會發生,也許控制器有故障?

根據您的描述,重建似乎沒有失敗,因為陣列已啟動並正在執行。然而,重建過程似乎導致一些塊被錯誤地放置/重新映射,這是一件非常罕見但危險的事情。

我建議你花時間檢查一下情況。您是否閱讀/遵循了 RAID 卡手冊?你100%確定你做了正確的事嗎?如果對這兩個問題的回答都是“是”,您應該立即向您的伺服器供應商/顧問提出支持案例。

引用自:https://serverfault.com/questions/846967