Hyper-V

斷電後 Windows 群集失敗

  • July 8, 2013

首先,我們有一個執行 HA Hyper-V 和 DHCP 的 Windows 2008 R2 兩節點集群。我們使用後端 Dell MD3000i iSCSI SAN 進行儲存。所有網路都是通過冗餘交換機和 MPIO 驅動程序完成的。數據網路與主網路位於不同的 VLAN 上。

這是我們不斷遇到的場景:

我們有時會停電。我們在機櫃中有雙 UPS 設備,它們可以持續大約 15 分鐘左右,但如果我們沒有恢復供電,一切都會出現故障,集群節點、SAN 等等。

最終電源恢復正常,所有設備都配置為在交流電恢復時啟動。但是,當我們像這樣完全中斷時,集群永遠不會正常恢復線上。我們會遇到常見的錯誤,例如 Quorum 磁碟不可用等。此外,我們的兩個主域控制器是 VM 集群頂部的虛擬機。我們確實有一個物理伺服器作為另一個域控制器執行,認為這會在事情重新上線時有所幫助。

我們不明白的是為什麼系統在啟動時無法自行恢復,最終有一個可用的 DC 進行身份驗證。iSCSI 網路重新上線,我們還缺少其他東西嗎?

我認為這可能與集群服務準備就緒時 iSCSI Initiator 服務啟動速度不夠快有關。

我可以發布任何想法或東西來提供幫助嗎?

謝謝,布倫特

我們遇到了同樣的問題,我們的集群在電源故障後沒有完全恢復。與您一樣,共享儲存位於 iSCSI SAN 上。我們的解決方法是確保 VM 主機和來賓啟動延遲足夠長的時間,以確保 SAN 首先重新聯機。我們發現如果不這樣做,共享卷會重新連接,但仍處於離線狀態,從而導致集群失敗……

我在自己的系統上遇到了這個問題。電源故障後集群無法恢復,要麼是因為域控制器還沒有準備好,要麼是 SAN 還沒有準備好。對於那些沒有任何託管 PDU 或 bios 選項來延遲啟動並需要添加啟動延遲的使用者,此部落格中發布了一個簡單的方法

在 Server 2008 上,打開命令提示符並鍵入:

bcdedit /copy {current} /d "Boot delay placeholder"
bcdedit /timeout 300

這將創建第二個引導菜單選項(需要出現超時)並將超時設置為 5 分鐘(300 秒)。伺服器將位於啟動菜單,直到超時或有人按下輸入鍵。

引用自:https://serverfault.com/questions/343763