複製磁碟時,Ubuntu 18.04 VM 凍結並殺死單個 ESXi
好的,所以我得到了與這裡描述的基本相同的情況。
區別在於:
- ESXi 6.7.0 已完全修補
- 本地 SSD 和 HDD
VM 正在執行一個通用的 Nextcloud 堆棧(MySQL、Apache2、PHP)。
這個問題是在我將 ESXi 升級到目前更新檔級別(我認為是 1 月或 2 月的更新檔)之後出現的。有問題的系統上沒有其他與儲存相關的更改。我唯一想到的是虛擬機遇到高磁碟載入,因為有時 ghettoVCB 和基於 ssh 的備份重疊。
我可以看到核心發出指向儲存訪問超時的消息。我還在 ESXi 上發現了一條日誌消息,內容如下:
Lost access to volume UUID (name) due to connectivity issues. Recovery attempt is in progress and outcome will be reported shortly.
但沒有進一步的報導。
讓 VM 和 ESXi 再次負責的唯一解決方案是硬重置 ESXi 主機。
隨著我的研究繼續,我將更新這個問題。如果有人有任何想法,我將非常感謝您的幫助!
這非常簡單:一個硬碟驅動器發生故障,該虛擬機將其作為數據磁碟進行訪問。它在物理上已損壞,但 ESXi 和管理委員會都沒有看到。
TL;DR:硬碟出現故障但未檢測到。此問題與軟體無關。
假設 ESXi 主機和儲存設備之間不存在連接問題,並且您已經檢查了 LUN 是否沒有路徑不一致(如果是這種情況),您似乎遇到了由 ESXi 修補導致的驅動程序兼容性問題。
您可以嘗試禁用 vmw_ahci 驅動程序:
esxcli system module set --enabled=false --module=vmw_ahci
如果這不起作用,您應該恢復到以前的 ESXi 更新檔或嘗試恢復初始驅動程序(這可能非常困難)。
此外,檢查 vmkernel.log、vobd.log 和 vmksummary.log 可能會揭示有關確切原因的詳細資訊。