Windows Server 2012 藍屏上的 Exchange 2016
我有一個 Exchange 2016 伺服器,其間大約有 14 天的藍屏當機。伺服器是虛擬的,存在於通過 iSCSI 儲存的集群 vmware 環境中。我們執行的其他 Windows 伺服器(包括 Exchange 的被動副本)都沒有藍屏。被動 Exchange 正在備份並清除被動和主動節點上的事務日誌。
- 我已經嘗試安裝最新的關鍵更新檔(還沒有可選的)
- 我已嘗試將有問題的 VM 遷移到新主機。
這是 BSoD 查看器給我的資訊:
052716-21921-01.dmp 27.05.2016 10:22:16 CRITICAL_PROCESS_DIED 0x000000ef ffffe000`de10d080 00000000`00000000 00000000`00000000 00000000`00000000 ntoskrnl.exe ntoskrnl.exe+14e3a0 NT Kernel & System Microsoft® Windows® Operating System Microsoft Corporation 6.3.9600.18289 (winblue_ltsb.160328-1315) x64 ntoskrnl.exe+14e3a0 C:\Windows\Minidump\052716-21921-01.dmp 8 15 9600 138 150 27.05.2016 10:22:47 051516-25765-01.dmp 15.05.2016 10:11:06 CRITICAL_PROCESS_DIED 0x000000ef ffffe001`0ad80900 00000000`00000000 00000000`00000000 00000000`00000000 ntoskrnl.exe ntoskrnl.exe+14e3a0 NT Kernel & System Microsoft® Windows® Operating System Microsoft Corporation 6.3.9600.18289 (winblue_ltsb.160328-1315) x64 ntoskrnl.exe+14e3a0 C:\Windows\Minidump\051516-25765-01.dmp 8 15 9600 138 150 15.05.2016 10:11:41 042816-19328-01.dmp 28.04.2016 22:36:50 CRITICAL_PROCESS_DIED 0x000000ef ffffe001`3da4f900 00000000`00000000 00000000`00000000 00000000`00000000 ntoskrnl.exe ntoskrnl.exe+14e8a0 NT Kernel & System Microsoft® Windows® Operating System Microsoft Corporation 6.3.9600.18289 (winblue_ltsb.160328-1315) x64 ntoskrnl.exe+14e8a0 C:\Windows\Minidump\042816-19328-01.dmp 8 15 9600 294 472 28.04.2016 22:39:45 041916-23859-01.dmp 19.04.2016 08:43:53 CRITICAL_PROCESS_DIED 0x000000ef ffffe001`23101900 00000000`00000000 00000000`00000000 00000000`00000000 ntoskrnl.exe ntoskrnl.exe+14e8a0 NT Kernel & System Microsoft® Windows® Operating System Microsoft Corporation 6.3.9600.18289 (winblue_ltsb.160328-1315) x64 ntoskrnl.exe+14e8a0 C:\Windows\Minidump\041916-23859-01.dmp 8 15 9600 294 472 19.04.2016 08:47:04
我在不同的網站上看到了一個有同樣問題的文章,但沒有人真正回答這個問題,而且文章已經過時了。
有人對如何解決這個問題有任何指示嗎?我是否必須安裝另一台 Exchange 伺服器並遷移到其中?這將是非常不幸的..
您的儲存系統出現故障或速度太慢而無法跟上。如果 IO 停滯時間過長,Exchange 會認為儲存已死並殺死 Wininit 以強制硬重置。
請參閱https://technet.microsoft.com/en-us/library/ff625233.aspx並滾動到末尾。2013 年和 2016 年也是如此。
在某些情況下,整個儲存堆棧可能會受到掛起的影響,從而無法將故障事件寫入 crimson 通道或 Windows 事件日誌的任何其他區域。ESE 還通過驗證是否可以寫入事件日誌來監控深紅色通道。如果長時間寫入事件日誌失敗,MSExchangeRepl 會通過終止 wininit.exe 故意導致對 Windows 的錯誤檢查。當作業系統 I/O 掛起時,系統顯然無法將任何 ESE 事件寫入事件日誌。
我在使用 Windows Server Backup 備份 Exchange 時親身體驗過。當備份開始時,它將並行對所有數據庫進行一致性檢查。這會在儲存退出幾分鐘後導致 Exchange 藍屏。
第一個解決方案是禁用 ATS 心跳到儲存陣列 https://kb.vmware.com/kb/2113956
文本太長無法複製,但 TL;DR:當 8 秒的 ATS 心跳超時時,您的儲存陣列連接可能會在大量 IO 下斷開,這將導致 VM 中的 IO 超時,從而導致 Exchange 到 BSoD。
第二種解決方案是在虛擬機中添加儲存控制器,並在控制器之間分配數據庫磁碟。就我而言,單個 pvscsi 控制器在 6 個數據庫下會嚴重阻塞,但是當磁碟(包括 OS 磁碟等)分佈在 4 個 pvscsi 控制器上時,問題就消失了。我對此沒有參考,只是對 vSphere 5.5 U3 的個人經驗。