Raid

在 3ware 9690SA-8I 上重建陣列

  • April 3, 2015

TL;DR 版本

  1. RAID10 陣列工作正常
  2. 重新啟動伺服器作為維護的一部分
  3. 陣列無法操作(無法訪問)
  4. 控制器日誌說單個驅動器壞了
  5. 刪除驅動器和測試 - 未發現壞扇區
  6. 謹慎起見,用已知良好的驅動器更換驅動器
  7. 控制器不會將陣列重建到新驅動器上
  8. 即使只有 1 個驅動器發生故障,控制器也會使整個 RAID10 陣列無法訪問

現在是長而詳細的版本:

我在 Ubuntu 1110 伺服器上執行的 3ware 9690 卡上有一個 RAID10 (8x1TB) 陣列。

有一個核心更新,所以我安排了重新啟動,之後陣列無法訪問。我檢查了陣列中驅動器已死亡的狀態,但控制器已將整個陣列置於“不可操作”狀態,而不是簡單地降級(現在 RAID 的意義何在 ;-)。

取出“死”驅動器後,我進行了快速測試,發現它完全正常工作,沒有發現壞扇區。

我嘗試將驅動器放回原處,但陣列仍將磁碟標記為已降級(記住序列號或其他東西??)並且整個陣列無法執行……

所以我將它換成一個已知的工作驅動器(容量不同但更高 - 應該仍然可以工作)並使用新驅動器作為替換啟動重建。這會立即失敗,並出現錯誤“(0x0B:0x0033): Unit busy : Failed to start Rebuild on Unit 0”。該單元不應該很忙,因為它沒有安裝(卡本身與 lshw 一起列出,但它提供的陣列沒有)。

我現在幾乎陷入僵局,我不明白如何在 RAID10 上出現單個驅動器故障,導致整個陣列無法訪問,降級我可以理解但無法訪問?我不認為控制器有故障,因為在重新啟動之前它是完全正常的。


> info c0

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-10   INOPERABLE     -       -       256K    3725.25   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            SAMSUNG HD103SJ
p1    OK             u0   931.51 GB SATA  1   -            SAMSUNG HD103SJ
p2    OK             u0   931.51 GB SATA  2   -            SAMSUNG HD103SJ
p3    OK             u0   931.51 GB SATA  3   -            SAMSUNG HD103SJ
p4    OK             u0   931.51 GB SATA  4   -            SAMSUNG HD103SJ
p5    OK             -    1.36 TB   SATA  5   -            ST31500341AS
p6    OK             u0   931.51 GB SATA  6   -            SAMSUNG HD103SJ
p7    OK             u0   931.51 GB SATA  7   -            SAMSUNG HD103SJ

> /c0/u0 start rebuild disk=5

Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy

聯繫了 LSI 支持人員,他們的一位 2 級技術人員瘋狂地編寫腳本和韌體 hack,以使陣列進入正常降級狀態。

從那裡開始像往常一樣將新磁碟加入陣列並重建。

引用自:https://serverfault.com/questions/335280