Linux
診斷 Linux 上的硬鎖定
在過去的一個月裡,我的一台 Debian Squeeze (Linux 2.6.32-bpo.5-amd64) 機器確實鎖定了兩次,很難。對 ARP 無響應,暗控制台,Caps Lock,Num Lock 不起作用,Magic SysRq無效。從 backports 將核心更改為 3.2.0-0.bpo.2-amd64 也無濟於事。
溫度和負載監控在崩潰前沒有顯示任何峰值。
我應該如何診斷和調試此類問題?
netconsole是我唯一的選擇嗎?
編輯: 我已經禁用了螢幕消隱:
#/etc/console-tools/config BLANK_TIME=0 POWERDOWN_TIME=0
和
setterm -blank 0
在物理控制台上。
更新:
這次它鎖定了,螢幕仍然顯示登錄提示。自上次出現問題以來,我已經使用 BOINC(Prime 95)測試執行了 6 小時負載測試,沒有任何問題。
隨著掛起越來越頻繁,問題可能是由主機板故障或CPU故障引起的。更換這些組件後,問題就消失了。
我找到了兩種可能的解決方案,如果它們有效,我會報告。**編輯:**他們沒有
首先是通過添加核心啟動參數來啟用nmi_watchdog 。
nmi_watchdog=1
第二個(感謝@womble 的建議)通過
modprobe amd64_edac_mod ecc_enable_override=1 edac_op_state=1
不幸的是,不支持 2.6.32-bpo.5-amd64(Debian 擠壓)核心中的 ECC DDR3 記憶體,我不得不使用來自 backports 的 3.2。
我還將這些選項添加到通用核心參數中:
echo options amd64_edac_mod ecc_enable_override=1 edac_op_state=1 > /etc/modprobe.d/amd64_edac_mod.conf