Windows-Server-2003

對可怕的 0x9C BSOD 進行故障排除

  • October 1, 2009

我們有一台執行 Windows Server 2003 R2、Enterprise x64 並安裝了 Service Pack 2 的 Dell PowerEdge 2950。

最近,我們遇到了該伺服器發生的多個 STOP 錯誤。幸運的是,它作為故障轉移機器就位,因此目前不會影響我們的生產環境。伺服器日誌中顯示的錯誤是這樣的:

Event Type: Error
Event Source:   System Error
Event Category: (102)
Event ID:   1003
Description:
Error code 000000000000009c, parameter1 0000000000000004, 
parameter2 fffffadf90881240, parameter3 00000000f2000000, 
parameter4 0000000000060151.

到目前為止,我能找到的最好的結果是 9C 錯誤是某種通用硬體問題。其他參數在縮小這一範圍方面沒有用。

自去年機器投入使用以來,硬體沒有發生任何變化。它有一個相同的雙盒子(這個盒子充當故障轉移的主要盒子),但沒有遇到該行為。上一次軟體更改是在 2009 年 4 月 16 日,當時應用了幾個安全更新。藍屏從 2009 年 5 月 9 日開始出現。

是否有任何可能有助於解決 tis 問題的診斷方法?

請參閱 Kazna3 在http://www.dal.com/archive/index.php/t-49205.html上的回答他/她寫道:

但首先,BSOD 已經很老了。0x9C BUGCHECK 與硬體相關,眾所周知。其餘部分與處理器有關,它是處理器故障或只是處理器驅動程序。:(

看看這裡的解釋:0x9C: MACHINE_CHECK_EXCEPTION ( http://msdn2.microsoft.com/en-us/library/ms795775.aspx )

當我們使用 P4 獲得它時,Microsoft 曾經建議過這一點:

第 1 步)更新您的 BIOS(稱為微碼更新的硬體更新檔在這裡,如果您的處理器或 AMLI 有勘誤表,將在此處修復)。

步驟 2) 立即致電硬體供應商,因為這是一個嚴格的硬體錯誤。

步驟 3) 更換硬體,從 CPU 開始。

換句話說,你的硬體很可能是壞的。可能是斷電或高溫。僅僅因為一個組件是固態並不意味著它不會發生故障。例如:RAM 總是出現故障——它裝在防靜電袋中是有原因的。

引用自:https://serverfault.com/questions/7060