ESXi 5.5 伺服器無響應
我有一台主機,它是 HA 中 4 主機集群的一部分。
昨天某個時候,我注意到主機停止響應,在 vsphere 控制台中它顯示為灰色(未響應),並且其上的所有虛擬機都顯示為(無法訪問)。他們自己的虛擬機仍在正常執行,我可以遠端桌面到他們,一切都正常了。這台機器上有關鍵伺服器。我試圖在幾個小時後右鍵點擊主機並“連接”它只是失敗了。我無法在上面移動虛擬機,所有操作都顯示為灰色。在主機上按 F2 會給我登錄提示,輸入我的憑據後沒有任何反應。ALT+F1 不允許我做任何事情,因為它沒有啟用。未啟用 SSH。使用 ALT+F11 我可以看到 hostd 已崩潰,這可能是問題所在。我已經打電話給 Vmware,因為我得到了全力支持,但在打了很短的電話後,他說那裡'
我寧願不這樣做,我想重新啟動 hostd 但我似乎無法訪問。我嘗試了 PowerCLI,但與主機的連接超時。Vsphere 直接連接到主機也會超時。ping主機有效,所以至少有網路。
有沒有人知道其他獲取shell的方法?
謝謝。
更多資訊:在 Dell PowerEdge R720、Dell PERC H710 上執行 ESXi 5.5.0 1331820
我檢查了 DRAC,本地捲是健康的。它實際上只是一個 RAID 1,所有虛擬機都在 SAN 上。vmware esxi 歡迎頁面有效,但如果我點擊“瀏覽此主機清單中的數據儲存”,它永遠不會出現。暴民似乎也正常工作 “hostip/mob/?moid=ServiceInstance&doPath=content”;
在 ALT+F11 控制台上:2014-09-11T7:15:02.329Z cpu12:57750311) 檢測到主機沒有響應
同一行,不同的時間和cpu 11次。
這對我來說聽起來像是一個本地儲存問題。我在一個有數百個 ESXi 主機的環境中工作,這些主機在本地 RAID 儲存上執行。不幸的是,硬體中的本地儲存控制器不穩定……糟糕的 LSI 韌體版本、有缺陷的背板和 Supermicro 硬體混合在一起。
但是您描述的行為表明存在本地儲存問題。您正在執行的虛擬機位於 RAM 中,網路堆棧不受影響,但管理主機的能力受到影響。您的登錄不起作用,因為主機無法從本地磁碟讀取。對於需要磁碟訪問的任何其他命令也是如此。
您最好的選擇是安排有序關閉 VM(從來賓作業系統內)。從那裡,手動使主機失敗(關閉電源、重新啟動等)。讓它保持在維護模式或集群選擇之外。打開虛擬機電源並允許它們在 vSphere 集群中的其他位置執行。
如果您對調試主機問題感興趣,請查看 Dell DRAC 以獲取有關儲存陣列狀態的資訊。這將為您指明正確的方向。