Boot

大部分相同系統在軟重啟時掛起

  • May 24, 2016

在解決這個問題一周後,我開始尋求任何其他想法。

我們有大約 100 個使用帶有 J1900 Celeron 處理器的 AAEON PICO-ITX BT01 主機板的相同系統。

每個系統都在核心 3.16.0-0-686 的 Debian Jessie 上執行。每個系統都使用相同的 clonezilla 映像以相同的方式進行映像。

我們正在經歷一種間歇性故障模式,表現為以下三種方式之一(儘管我相信這三種方式都是相同的根本原因)

  1. 在 BIOS 啟動的最後,它凍結並且無法恢復。雖然它顯示錯誤程式碼 99,但此程式碼始終顯示在核心啟動前的瞬間,所以我的感覺是此 BIOS 程式碼不是診斷程式碼(它只是螢幕上的最後一件事)。禁用 bios splash 沒有任何用處,只有 bios 版本和錯誤程式碼。

http://imgur.com/ifse045

  1. 在核心啟動的最初階段,它報告 CPU 核心無法喚醒。然後系統掛起並且無法恢復。

http://imgur.com/hZdzq74

  1. BIOS 啟動後立即停止螢幕輸出,系統掛起且無法恢復。

這不會發生在每塊板上,儘管它們都來自相同的生產執行並使用相同的硬體(話雖如此,我們已經交換了 SSD 並看到了同樣的問題,所以我不相信它是 SSD 模組)。

在現場看到這種情況後,我制定了一個測試程序,對系統進行映像,然後將 crontask 設置為在啟動後 60 秒重新啟動。我們會以這種方式燒錄系統,因為它們在發生故障時沒有恢復,24 小時後我們會看到哪些系統仍在重新啟動,哪些沒有通過測試。

我在這裡問看看是否有人有任何其他想法,基本上。我一直與電路板製造商保持聯繫,他們正在測試兩個受影響的系統,但還沒有結果。我可以在我這裡的系統上執行任何必要的測試,包括通過的板和失敗的板。

還有一件重要的事情。硬重啟(斷電)始終允許系統啟動。在主機板重新上電後的第一次軟重啟期間,大多數情況下辨識為故障的系統將無法啟動。我只在軟重啟期間見過這種故障模式。

這一直是個謎,除此之外,我喜歡硬體並且很想繼續購買它。

謝謝大家。

與製造商合作發現了此故障的原因,結果證明是 BIOS 版本錯誤。我們都測試了回滾 BIOS,問題就消失了。

這應該是一個早期診斷步驟,但生活和學習!

引用自:https://serverfault.com/questions/776701