Linux

診斷 Linux 上的硬鎖定

  • November 2, 2012

在過去的一個月裡,我的一台 Debian Squeeze (Linux 2.6.32-bpo.5-amd64) 機器確實鎖定了兩次,很難。對 ARP 無響應,暗控制台,Caps Lock,Num Lock 不起作用,Magic SysRq無效。從 backports 將核心更改為 3.2.0-0.bpo.2-amd64 也無濟於事。

溫度和負載監控在崩潰前沒有顯示任何峰值。

我應該如何診斷和調試此類問題?

netconsole是我唯一的選擇嗎?

編輯: 我已經禁用了螢幕消隱:

#/etc/console-tools/config
BLANK_TIME=0
POWERDOWN_TIME=0

setterm -blank 0

在物理控制台上。

更新:

這次它鎖定了,螢幕仍然顯示登錄提示。自上次出現問題以來,我已經使用 BOINC(Prime 95)測試執行了 6 小時負載測試,沒有任何問題。

隨著掛起越來越頻繁,問題可能是由主機板故障或CPU故障引起的。更換這些組件後,問題就消失了。

我找到了兩種可能的解決方案,如果它們有效,我會報告。**編輯:**他們沒有

首先是通過添加核心啟動參數來啟用nmi_watchdog 。nmi_watchdog=1

第二個(感謝@womble 的建議通過

modprobe amd64_edac_mod ecc_enable_override=1 edac_op_state=1

不幸的是,不支持 2.6.32-bpo.5-amd64(Debian 擠壓)核心中的 ECC DDR3 記憶體,我不得不使用來自 backports 的 3.2。

我還將這些選項添加到通用核心參數中:

echo options amd64_edac_mod ecc_enable_override=1 edac_op_state=1 > /etc/modprobe.d/amd64_edac_mod.conf

引用自:https://serverfault.com/questions/410989