Hyper-v-Server-2008-R2
無法在 Hyper-V 2008R2 群集上啟動 VM
我有一個帶有 2 個節點的 Server 2008R2 Hyper-V 集群。他們在 SAN 上使用 CSV。我使用 SCVMM 來管理它們。我們最近發生了幾次導致故障轉移的崩潰,導致虛擬機當機並在另一個節點上啟動。在大多數情況下,這工作得很好。在一次電源故障期間,兩個節點都無法訪問 SAN,導致 CSV 離線。在故障轉移群集管理器中使其聯機工作正常,並且大多數虛擬機都可以正常啟動。
但是,一台虛擬機不會啟動。
- 在 SCVMM 中,它顯示為缺失。
- 在故障轉移群集管理器中,它顯示為離線,“SCVMM 主機名配置”資源失敗。
- 嘗試啟動失敗的配置資源,或將虛擬機移動到另一個節點會導致等待 5 分鐘,然後出現錯誤“錯誤程式碼:0x80071714 該組無法接受請求,因為它正在移動到另一個節點”。
除了上述錯誤之外,故障轉移群集中似乎沒有任何最近的相關日誌或任一節點上的 Windows 事件日誌。從上週發生故障時,我可以在故障轉移集群管理器中看到一些嚴重事件:
- 事件 ID 21502:“SCVMM 主機名配置”無法將虛擬機註冊到虛擬機管理服務。
- 25 分鐘後,事件 ID 1230:集群資源“SCVMM 主機名配置”(資源類型“”,DLL“vmclusres.dll”)崩潰或死鎖。資源託管子系統 (RHS) 程序現在將嘗試終止,並且資源將被標記為在單獨的監視器中執行。
- 那一次又重複了 3 次,間隔 5 分鐘。
- 從那以後就沒有日誌了。
我查看了 SAN 上的文件。所有這些似乎都完好無損。XML 配置文件似乎是有效的(一些研究表明,如果 XML 文件損壞,可能會發生這種情況)。
編輯:我還執行了集群驗證報告。除了失敗的資源和一些預期的錯誤,它無法在磁碟線上時測試它們,一切看起來都很好。
如何讓這個虛擬機再次執行?
儘管不知道究竟是什麼導致了問題,但讓 VM 再次執行非常容易:
- 找出問題虛擬機在哪個節點上
- 將其置於 VMM 中的維護模式(或者只是將所有內容實時遷移出該節點)。問題 VM 仍將卡在該節點上。
- 停止該節點上的集群服務,然後重新啟動它。
當我停止集群服務時,VM 立即被其餘節點之一接管並自動啟動。