Linux

引導期間控制台中顯示的 CPU 錯誤消息——“CPU1: Stuck ??”

  • September 14, 2014

我最近在伺服器中安裝了第二個 CPU。CPU 與第一個相同,我在安裝前驗證了 CPU 處於良好的工作狀態。

伺服器啟動了,我安裝了 CentOS 6 沒有問題。

POST 螢幕可以辨識兩個 CPU——截圖: http: //pasteboard.co/bOY8M04.png

但是,在第一次啟動時,我注意到控制台上有一條奇怪的錯誤消息,顯示“CPU1:Stuck ??” – 截圖: http: //pasteboard.co/bOWvk1c.png

在探勘 /var/log/messages 後,我發現了有關此錯誤的更多調試輸出:

Sep 13 18:01:58 customer kernel: Kernel panic - not syncing: Fatal exception
Sep 13 18:01:58 customer kernel: Pid: 0, comm: swapper Tainted: G      D    ---------------    2.6.32-431.29.2.el6.x86_64 #1
Sep 13 18:01:58 customer kernel: Call Trace:
Sep 13 18:01:58 customer kernel: [<ffffffff8152873c>] ? panic+0xa7/0x16f
Sep 13 18:01:58 customer kernel: [<ffffffff8152ca74>] ? oops_end+0xe4/0x100
Sep 13 18:01:58 customer kernel: [<ffffffff81010e0b>] ? die+0x5b/0x90
Sep 13 18:01:58 customer kernel: [<ffffffff8152c552>] ? do_general_protection+0x152/0x160
Sep 13 18:01:58 customer kernel: [<ffffffff8152bd25>] ? general_protection+0x25/0x30
Sep 13 18:01:58 customer kernel: [<ffffffff8103eb79>] ? native_write_cr4+0x9/0x10
Sep 13 18:01:58 customer kernel: [<ffffffff81050a2e>] ? syscall32_cpu_init+0x6e/0x80
Sep 13 18:01:58 customer kernel: [<ffffffff8151bea2>] ? xsave_init+0x31/0x48
Sep 13 18:01:58 customer kernel: [<ffffffff8151be45>] ? fpu_init+0x7e/0xaa
Sep 13 18:01:58 customer kernel: [<ffffffff8151df1b>] ? cpu_init+0x309/0x35f
Sep 13 18:01:58 customer kernel: [<ffffffff81521fcd>] ? start_secondary+0xd/0x2ef
Sep 13 18:01:58 customer kernel: [<ffffffff81521fc0>] ? start_secondary+0x0/0x2ef
Sep 13 18:01:58 customer kernel: CPU1: Stuck ??
Sep 13 18:01:58 customer kernel: #2 #3
Sep 13 18:01:58 customer kernel: general protection fault: 0000 [#2] SMP
Sep 13 18:01:58 customer kernel: last sysfs file:
Sep 13 18:01:58 customer kernel: CPU 3
Sep 13 18:01:58 customer kernel: Modules linked in:
Sep 13 18:01:58 customer kernel:
Sep 13 18:01:58 customer kernel: Pid: 0, comm: swapper Tainted: G      D    ---------------    2.6.32-431.29.2.el6.x86_64 #1 Supermicro X7DWT/X7DWT

這是啟動期間 /var/log/messages 的完整輸出:http: //pastebin.com/b3wfmLX6

系統啟動後,如果我執行cat /proc/cpuinfo只顯示四個核心。

有誰知道可能導致這些錯誤的原因是什麼?

嗯,看起來像超微。你確定你的硬體是健康的嗎?

這只需要故障排除步驟。

  • 嘗試在沒有新 CPU 的情況下啟動。
  • 嘗試交換物理 CPU。
  • 排除CPU插槽為原因。
  • 根據這些結果採取適當的措施。

引用自:https://serverfault.com/questions/628384