Raid
在 3ware 9690SA-8I 上重建陣列
TL;DR 版本
- RAID10 陣列工作正常
- 重新啟動伺服器作為維護的一部分
- 陣列無法操作(無法訪問)
- 控制器日誌說單個驅動器壞了
- 刪除驅動器和測試 - 未發現壞扇區
- 謹慎起見,用已知良好的驅動器更換驅動器
- 控制器不會將陣列重建到新驅動器上
- 即使只有 1 個驅動器發生故障,控制器也會使整個 RAID10 陣列無法訪問
現在是長而詳細的版本:
我在 Ubuntu 1110 伺服器上執行的 3ware 9690 卡上有一個 RAID10 (8x1TB) 陣列。
有一個核心更新,所以我安排了重新啟動,之後陣列無法訪問。我檢查了陣列中驅動器已死亡的狀態,但控制器已將整個陣列置於“不可操作”狀態,而不是簡單地降級(現在 RAID 的意義何在 ;-)。
取出“死”驅動器後,我進行了快速測試,發現它完全正常工作,沒有發現壞扇區。
我嘗試將驅動器放回原處,但陣列仍將磁碟標記為已降級(記住序列號或其他東西??)並且整個陣列無法執行……
所以我將它換成一個已知的工作驅動器(容量不同但更高 - 應該仍然可以工作)並使用新驅動器作為替換啟動重建。這會立即失敗,並出現錯誤“(0x0B:0x0033): Unit busy : Failed to start Rebuild on Unit 0”。該單元不應該很忙,因為它沒有安裝(卡本身與 lshw 一起列出,但它提供的陣列沒有)。
我現在幾乎陷入僵局,我不明白如何在 RAID10 上出現單個驅動器故障,導致整個陣列無法訪問,降級我可以理解但無法訪問?我不認為控制器有故障,因為在重新啟動之前它是完全正常的。
> info c0
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy ------------------------------------------------------------------------------ u0 RAID-10 INOPERABLE - - 256K 3725.25 Ri ON VPort Status Unit Size Type Phy Encl-Slot Model ------------------------------------------------------------------------------ p0 OK u0 931.51 GB SATA 0 - SAMSUNG HD103SJ p1 OK u0 931.51 GB SATA 1 - SAMSUNG HD103SJ p2 OK u0 931.51 GB SATA 2 - SAMSUNG HD103SJ p3 OK u0 931.51 GB SATA 3 - SAMSUNG HD103SJ p4 OK u0 931.51 GB SATA 4 - SAMSUNG HD103SJ p5 OK - 1.36 TB SATA 5 - ST31500341AS p6 OK u0 931.51 GB SATA 6 - SAMSUNG HD103SJ p7 OK u0 931.51 GB SATA 7 - SAMSUNG HD103SJ
> /c0/u0 start rebuild disk=5
Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed. (0x0B:0x0033): Unit busy
聯繫了 LSI 支持人員,他們的一位 2 級技術人員瘋狂地編寫腳本和韌體 hack,以使陣列進入正常降級狀態。
從那裡開始像往常一樣將新磁碟加入陣列並重建。