Citrix 場中的隨機伺服器突然藍屏(主要是 0x0000008e 和 0x0000007e)
我負責一個 Citrix Presentation Server 4.5 場。從 11 月 30 日星期五開始,我的伺服器開始隨機崩潰。到目前為止,我們已經經歷了 80 次崩潰,所以這顯然對我們來說是一個越來越大的問題。我有 12 年以上的 IT 經驗,所以我知道 0 和 1 之間的區別,但我很難破解這一點。
我們已經回滾了我能想到的針對不同伺服器組的任何最近更改,但所有組似乎仍然崩潰。我沒有解釋記憶體轉儲以找到罪魁禍首的技能。
- 有沒有人遇到過相同或類似的問題?- 可能是一般的 Windows 問題
- 除了在 WinDbg 中執行“analyze -v”之外,我如何通過記憶體轉儲來查看實際觸發 BSOD 的原因?
- 有什麼建議的步驟來解決這個問題嗎?
任何幫助是極大的讚賞。如有必要,我還可以提供核心記憶體轉儲或 WinDbg 輸出的連結。
謝謝!
問題描述
我們遇到的大多數 STOP 錯誤是:
- 0x0000008e KERNEL_MODE_EXCEPTION_NOT_HANDLED (50%)
- 0x0000007e SYSTEM_THREAD_EXCEPTION_NOT_HANDLED (26%)
- 0x00000050 PAGE_FAULT_IN_NONPAGED_AREA (21%)
我們還看到一些0x0000000a IRQL_NOT_LESS_OR_EQUAL (3%)。
對於 0x0000008e 和 0x0000007e 錯誤檢查,異常程式碼為0xc0000005(訪問衝突)。在 WinDbg 中打開轉儲文件時,大多數細節完全相同,分別針對所有 0x0000008e 和 0x0000007e 錯誤檢查:
0x0000008e
- 異常地址:0x808bc9e3
- 陷阱框架:$$ varies $$
- FAILURE_BUCKET_ID: 0x8E_nt!HvpGetCellMapped+97
- 可能由(IMAGE_NAME)引起:ntkrpamp.exe
0x0000007e
- 異常地址:0x808369b6
- 異常記錄地址:0xf70d3be0
- 上下文記錄地址:0xf70d38dc
- FAILURE_BUCKET_ID: 0x7E_nt!MmPurgeSection+14
- 可能原因:memory_corruption
大約 30% 的崩潰發生在 17:00 到 19:00 之間,這讓我相信這往往在註銷期間更頻繁地發生。但話又說回來,只有約 15% 發生在 15:00 到 17:00 之間。
農場概要
- Windows Server 2003 R2 SP2 上的 Citrix Presentation Server 4.5 R06
- 所有高優先級更新檔,至少在 10 月安裝
- 在 HP Proliant BL460c G6 刀片伺服器上使用 VMWare ESX/vSphere 4.1 進行虛擬化
- 大約 53 台 Presentation Server 處於生產狀態,分為三個孤島 - 只有其中最大的一個受到影響
- 每個 Presentation Server 2 個 vCPU(5 GHz 保留),8 GB RAM(全部保留)
- 大量可用磁碟空間
- 很少的列印機驅動程序 - 每晚自動刪除未經批准的驅動程序
- 約 1.000 個峰值並髮使用者,在 10:30 左右(工作日)達到
- 會話數在 15:00 至 19:00 之間穩步下降至約 230
我們最終應用了 PS 4.5 匯總包 7(未安裝,因為它之前破壞了我們的會話可靠性)和許多 R07 後的修補程序。
此外,我們用更新的 UPHClean 1.6g 替換了最新的 UPHClean 2.0 測試版,微軟已經放棄了它作為一個單獨的組件(仍然內置在更高版本的 Windows 中)。
自那以後,農場一直很穩定,但為什麼突然間破敗失利,卻沒有做出任何重大改變,仍然是個謎。
我們在舊版本的 citrix (PS4) 上遇到了類似的問題,該問題歸咎於 HP 列印驅動程序。在重新安裝適當的之前,我必須清除所有內容,這似乎解決了藍色螢幕問題。還對“每晚自動刪除未經批准的驅動程序”感到好奇。如果你每晚都清除未經批准的那些,為什麼你首先允許它們安裝?您可以阻止它們安裝在 citrix 策略中。認為是在Printing -> Drivers -> Native printer driver auto-install 下(設置為不自動安裝)