Vmware-Esxi

如何判斷磁碟是否在 ESXi 上出現故障/這些錯誤是什麼意思?

  • August 26, 2011

我有一台執行 VMware ESXi v4.1.0 348481 的伺服器。它有一個硬體 RAID10 和一個 SATA 備份驅動器。我有一個正在執行的 VM,它在 RAID10 數據儲存上具有主引導 vmdk,在 SATA 備份驅動器的數據儲存上具有 600 GB vmdk。VM 執行帶有 FreeBSD 核心的 Debian linux,並使用 ZFS 作為備份驅動器。

**編輯:**驅動器直接連接到虛擬機。它用作 VMware 數據儲存,VM 在 SATA 驅動器的數據儲存上有一個 vmdk。數據儲存未滿(僅 65 *%*已滿)

我使用 SSH 登錄到伺服器,發現昨晚的備份掛了,zfs list或者zpool list都掛了。於是我在 ESXi 中打開了虛擬控制台,很傷心地看到:

這個截圖讓我傷心

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

我嘗試重新啟動虛擬機,但收到一條消息說系統正在關閉以重新啟動,然後掛起。(^C 出現但不殺死shutdown)。我不能打斷或程序——當我嘗試時什麼也沒有發生kill -9zpool list zfs list``rsync

  1. 這是否表明備份 SATA 驅動器出現故障?或者這可能只是一個 ESXi 錯誤?
  2. 如何在 vSphere 客戶端中判斷驅動器是否出現故障?我沒有看到任何跡象,Hardware Health Status 下的一切看起來都很好,而 Storage config 下我什麼也沒看到。
  3. 我應該如何從這裡開始?我應該硬重啟虛擬機嗎?

**更新:**我只是硬重啟了虛擬機。在它恢復線上後,備份 zpool 線上,但是:

root@timestandstill:/home/jnet# zpool status -v
 pool: backup
state: ONLINE
status: One or more devices has experienced an error resulting in data
       corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
       entire pool from backup.
  see: http://www.sun.com/msg/ZFS-8000-8A
scrub: none requested
config:

       NAME        STATE     READ WRITE CKSUM
       backup      ONLINE       0     0     0
         da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

       /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

我非常傾向於更換驅動器…

這些錯誤確實表明其中一個 SATA 驅動器遇到了足夠多的壞塊以耗盡塊重新分配空間。那個驅動器壞了,需要更換。我不確定該資訊在 vSphere 客戶端的哪個位置顯示,但日誌條目非常清晰。

如果您的硬體允許,熱插拔應該是可行的。否則,您將不得不關閉所有設備才能執行更改。如果該虛擬機在 30 分鐘後沒有自行關閉,那麼就該硬終止它了。這是有風險的,但如果它真的被掛起來,那就沒什麼了。

引用自:https://serverfault.com/questions/305413