Linux
引導期間控制台中顯示的 CPU 錯誤消息——“CPU1: Stuck ??”
我最近在伺服器中安裝了第二個 CPU。CPU 與第一個相同,我在安裝前驗證了 CPU 處於良好的工作狀態。
伺服器啟動了,我安裝了 CentOS 6 沒有問題。
POST 螢幕可以辨識兩個 CPU——截圖: http: //pasteboard.co/bOY8M04.png
但是,在第一次啟動時,我注意到控制台上有一條奇怪的錯誤消息,顯示“CPU1:Stuck ??” – 截圖: http: //pasteboard.co/bOWvk1c.png
在探勘 /var/log/messages 後,我發現了有關此錯誤的更多調試輸出:
Sep 13 18:01:58 customer kernel: Kernel panic - not syncing: Fatal exception Sep 13 18:01:58 customer kernel: Pid: 0, comm: swapper Tainted: G D --------------- 2.6.32-431.29.2.el6.x86_64 #1 Sep 13 18:01:58 customer kernel: Call Trace: Sep 13 18:01:58 customer kernel: [<ffffffff8152873c>] ? panic+0xa7/0x16f Sep 13 18:01:58 customer kernel: [<ffffffff8152ca74>] ? oops_end+0xe4/0x100 Sep 13 18:01:58 customer kernel: [<ffffffff81010e0b>] ? die+0x5b/0x90 Sep 13 18:01:58 customer kernel: [<ffffffff8152c552>] ? do_general_protection+0x152/0x160 Sep 13 18:01:58 customer kernel: [<ffffffff8152bd25>] ? general_protection+0x25/0x30 Sep 13 18:01:58 customer kernel: [<ffffffff8103eb79>] ? native_write_cr4+0x9/0x10 Sep 13 18:01:58 customer kernel: [<ffffffff81050a2e>] ? syscall32_cpu_init+0x6e/0x80 Sep 13 18:01:58 customer kernel: [<ffffffff8151bea2>] ? xsave_init+0x31/0x48 Sep 13 18:01:58 customer kernel: [<ffffffff8151be45>] ? fpu_init+0x7e/0xaa Sep 13 18:01:58 customer kernel: [<ffffffff8151df1b>] ? cpu_init+0x309/0x35f Sep 13 18:01:58 customer kernel: [<ffffffff81521fcd>] ? start_secondary+0xd/0x2ef Sep 13 18:01:58 customer kernel: [<ffffffff81521fc0>] ? start_secondary+0x0/0x2ef Sep 13 18:01:58 customer kernel: CPU1: Stuck ?? Sep 13 18:01:58 customer kernel: #2 #3 Sep 13 18:01:58 customer kernel: general protection fault: 0000 [#2] SMP Sep 13 18:01:58 customer kernel: last sysfs file: Sep 13 18:01:58 customer kernel: CPU 3 Sep 13 18:01:58 customer kernel: Modules linked in: Sep 13 18:01:58 customer kernel: Sep 13 18:01:58 customer kernel: Pid: 0, comm: swapper Tainted: G D --------------- 2.6.32-431.29.2.el6.x86_64 #1 Supermicro X7DWT/X7DWT
這是啟動期間 /var/log/messages 的完整輸出:http: //pastebin.com/b3wfmLX6
系統啟動後,如果我執行
cat /proc/cpuinfo
只顯示四個核心。有誰知道可能導致這些錯誤的原因是什麼?
嗯,看起來像超微。你確定你的硬體是健康的嗎?
這只需要故障排除步驟。
- 嘗試在沒有新 CPU 的情況下啟動。
- 嘗試交換物理 CPU。
- 排除CPU插槽為原因。
- 根據這些結果採取適當的措施。