Hard-Drive

Dell PowerEdge R720 - 損壞的 RAID

  • June 4, 2014

提前為冗長的問題道歉。

我們有一個Dell PowerEdge R720伺服器:

  • 用於作業系統的 RAID 1 中的 2 個 136GB SAS 驅動器 ( Ubuntu Server 12.04)
  • 6 x3TB SATA drives in RAID 5data

幾天前,我們在嘗試訪問大型 RAID 5 分區上的文件時遇到了錯誤。我們重新啟動伺服器並收到有關the raid controller has found a foriegn config. 我們以前有過這種情況,只需要使用戴爾的 RAID 配置實用程序來import foreign config設置 RAID。上次這是有效的,但這一次,它開始進行磁碟檢查,然後我們得到了這個:

FSCK has returned the following:

"/dev/sdb1 inode 364738 has a bad extended attribute block 7

/dev/sdb1 unexpected inconsistency run fsck manually (i.e without -a or -p options) 

MOUNTALL fsck /ourdatapartition [1019] terminated with status 4

MOUNTALL filesystem has errors /ourdatapartition

errors where found while checking the disk drive for /ourdatapartition

Press F to fix errors, I to Ignore or M for Manual Recovery"

我們按 F 來嘗試修復錯誤,但它最終出錯:

Inode 275841084, i_blocks is 167080, should be 0. Fix? yes

Inode 275841141 has an invalid extend node (blk 2206761006, lblk 0)
Clear? yes

Inode 275841141, i_blocks is 227872, should be 0. Fix? yes

Inode 275842303 has an invalid extend node (blk 2206760975, lblk 0)
Clear? yes

....


Error storing directory block information (inode=275906766, block=0, num=2699516178):         Memory allocation failed

/dev/sdb1: ***** FILE SYSTEM WAS MODIFIED *****
e2fsck: aborted

/dev/sdb1: ***** FILE SYSTEM WAS MODIFIED *****
mountall: fsck /ourdatapartition [1286] terminated with status 9
mountall: Unrecoverable fsck error: /ourdatapartition

我們注意到其中一個驅動燈根本沒有點亮,並認為這可能已經失​​敗並且是問題所在。我們用備用驅動器替換了驅動器,並嘗試“F”再次修復它,但我們仍然遇到與上述相同的錯誤。

在 RAID 配置實用程序中,所有驅動器都顯示為“線上”和“最佳”。

我們確實在另一台複製伺服器上有這些數據,所以我們不擔心“恢復”任何東西,我們只想讓系統盡快恢復線上。

伺服器有 64 或 32GB 記憶體,我想不起來了,但不管怎樣,使用 14TB RAID,我認為它可能仍然不夠。

謝謝

編輯- 我在 fsck 按建議執行時檢查了記憶體使用情況,2 或 3 分鐘後,它看起來像這樣,幾乎用盡了我們所有的伺服器記憶體:

在 FSCK 記憶體使用期間

當它在我的文章中出現錯誤大約 5 分鐘後失敗時,記憶體立即再次釋放:

在 FSCK 錯誤記憶體使用之後

編輯 2 - 我檢查了壞塊sudo badblocks -nvs /dev/sdb1,但它回來了Pass completed, 0 bad blocks found. (0/0/0 errors)

看起來文件系統確實被沖洗了。由於您在另一台伺服器上擁有數據並且不需要從舊文件系統恢復數據,因此您應該能夠對分區進行 newfs 以創建空白文件系統。

mkfs /dev/sdb1

並完成它。

引用自:https://serverfault.com/questions/599408