Exchange

Windows Server 2012 藍屏上的 Exchange 2016

  • July 29, 2021

我有一個 Exchange 2016 伺服器,其間大約有 14 天的藍屏當機。伺服器是虛擬的,存在於通過 iSCSI 儲存的集群 vmware 環境中。我們執行的其他 Windows 伺服器(包括 Exchange 的被動副本)都沒有藍屏。被動 Exchange 正在備份並清除被動和主動節點上的事務日誌。

  • 我已經嘗試安裝最新的關鍵更新檔(還沒有可選的)
  • 我已嘗試將有問題的 VM 遷移到新主機。

這是 BSoD 查看器給我的資訊:

052716-21921-01.dmp 27.05.2016 10:22:16 CRITICAL_PROCESS_DIED   0x000000ef  ffffe000`de10d080   00000000`00000000   00000000`00000000   00000000`00000000   ntoskrnl.exe    ntoskrnl.exe+14e3a0 NT Kernel & System  Microsoft® Windows® Operating System    Microsoft Corporation   6.3.9600.18289 (winblue_ltsb.160328-1315)   x64 ntoskrnl.exe+14e3a0                 C:\Windows\Minidump\052716-21921-01.dmp 8   15  9600    138 150 27.05.2016 10:22:47 
051516-25765-01.dmp 15.05.2016 10:11:06 CRITICAL_PROCESS_DIED   0x000000ef  ffffe001`0ad80900   00000000`00000000   00000000`00000000   00000000`00000000   ntoskrnl.exe    ntoskrnl.exe+14e3a0 NT Kernel & System  Microsoft® Windows® Operating System    Microsoft Corporation   6.3.9600.18289 (winblue_ltsb.160328-1315)   x64 ntoskrnl.exe+14e3a0                 C:\Windows\Minidump\051516-25765-01.dmp 8   15  9600    138 150 15.05.2016 10:11:41 
042816-19328-01.dmp 28.04.2016 22:36:50 CRITICAL_PROCESS_DIED   0x000000ef  ffffe001`3da4f900   00000000`00000000   00000000`00000000   00000000`00000000   ntoskrnl.exe    ntoskrnl.exe+14e8a0 NT Kernel & System  Microsoft® Windows® Operating System    Microsoft Corporation   6.3.9600.18289 (winblue_ltsb.160328-1315)   x64 ntoskrnl.exe+14e8a0                 C:\Windows\Minidump\042816-19328-01.dmp 8   15  9600    294 472 28.04.2016 22:39:45 
041916-23859-01.dmp 19.04.2016 08:43:53 CRITICAL_PROCESS_DIED   0x000000ef  ffffe001`23101900   00000000`00000000   00000000`00000000   00000000`00000000   ntoskrnl.exe    ntoskrnl.exe+14e8a0 NT Kernel & System  Microsoft® Windows® Operating System    Microsoft Corporation   6.3.9600.18289 (winblue_ltsb.160328-1315)   x64 ntoskrnl.exe+14e8a0                 C:\Windows\Minidump\041916-23859-01.dmp 8   15  9600    294 472 19.04.2016 08:47:04 

我在不同的網站上看到了一個有同樣問題的文章,但沒有人真正回答這個問題,而且文章已經過時了。

有人對如何解決這個問題有任何指示嗎?我是否必須安裝另一台 Exchange 伺服器並遷移到其中?這將是非常不幸的..

您的儲存系統出現故障或速度太慢而無法跟上。如果 IO 停滯時間過長,Exchange 會認為儲存已死並殺死 Wininit 以強制硬重置。

請參閱https://technet.microsoft.com/en-us/library/ff625233.aspx並滾動到末尾。2013 年和 2016 年也是如此。

在某些情況下,整個儲存堆棧可能會受到掛起的影響,從而無法將故障事件寫入 crimson 通道或 Windows 事件日誌的任何其他區域。ESE 還通過驗證是否可以寫入事件日誌來監控深紅色通道。如果長時間寫入事件日誌失敗,MSExchangeRepl 會通過終止 wininit.exe 故意導致對 Windows 的錯誤檢查。當作業系統 I/O 掛起時,系統顯然無法將任何 ESE 事件寫入事件日誌。

我在使用 Windows Server Backup 備份 Exchange 時親身體驗過。當備份開始時,它將並行對所有數據庫進行一致性檢查。這會在儲存退出幾分鐘後導致 Exchange 藍屏。

第一個解決方案是禁用 ATS 心跳到儲存陣列 https://kb.vmware.com/kb/2113956

文本太長無法複製,但 TL;DR:當 8 秒的 ATS 心跳超時時,您的儲存陣列連接可能會在大量 IO 下斷開,這將導致 VM 中的 IO 超時,從而導致 Exchange 到 BSoD。

第二種解決方案是在虛擬機中添加儲存控制器,並在控制器之間分配數據庫磁碟。就我而言,單個 pvscsi 控制器在 6 個數據庫下會嚴重阻塞,但是當磁碟(包括 OS 磁碟等)分佈在 4 個 pvscsi 控制器上時,問題就消失了。我對此沒有參考,只是對 vSphere 5.5 U3 的個人經驗。

引用自:https://serverfault.com/questions/779545