對可怕的 0x9C BSOD 進行故障排除
我們有一台執行 Windows Server 2003 R2、Enterprise x64 並安裝了 Service Pack 2 的 Dell PowerEdge 2950。
最近,我們遇到了該伺服器發生的多個 STOP 錯誤。幸運的是,它作為故障轉移機器就位,因此目前不會影響我們的生產環境。伺服器日誌中顯示的錯誤是這樣的:
Event Type: Error Event Source: System Error Event Category: (102) Event ID: 1003 Description: Error code 000000000000009c, parameter1 0000000000000004, parameter2 fffffadf90881240, parameter3 00000000f2000000, parameter4 0000000000060151.
到目前為止,我能找到的最好的結果是 9C 錯誤是某種通用硬體問題。其他參數在縮小這一範圍方面沒有用。
自去年機器投入使用以來,硬體沒有發生任何變化。它有一個相同的雙盒子(這個盒子充當故障轉移的主要盒子),但沒有遇到該行為。上一次軟體更改是在 2009 年 4 月 16 日,當時應用了幾個安全更新。藍屏從 2009 年 5 月 9 日開始出現。
是否有任何可能有助於解決 tis 問題的診斷方法?
請參閱 Kazna3 在http://www.dal.com/archive/index.php/t-49205.html上的回答他/她寫道:
但首先,BSOD 已經很老了。0x9C BUGCHECK 與硬體相關,眾所周知。其餘部分與處理器有關,它是處理器故障或只是處理器驅動程序。:(
看看這裡的解釋:0x9C: MACHINE_CHECK_EXCEPTION ( http://msdn2.microsoft.com/en-us/library/ms795775.aspx )
當我們使用 P4 獲得它時,Microsoft 曾經建議過這一點:
第 1 步)更新您的 BIOS(稱為微碼更新的硬體更新檔在這裡,如果您的處理器或 AMLI 有勘誤表,將在此處修復)。
步驟 2) 立即致電硬體供應商,因為這是一個嚴格的硬體錯誤。
步驟 3) 更換硬體,從 CPU 開始。
換句話說,你的硬體很可能是壞的。可能是斷電或高溫。僅僅因為一個組件是固態並不意味著它不會發生故障。例如:RAM 總是出現故障——它裝在防靜電袋中是有原因的。