Hardware

調查潛在的 CPU 故障

  • October 18, 2013

在我用於計算的 Ubuntu 伺服器上,我最近觀察到一些 CPU 擴展程序(GUROBI、CPLEX)經常出現段錯誤。

與相應程序的技術支持一致,我被建議這可能是硬體問題。

伺服器的管理員進行了詳細的記憶體測試,結果發現 RAM 模組似乎沒問題。

因此,我使用工具mprime來測試 CPU,並且在執行壓力測試期間,以下兩行多次出現:

$$ Worker #4 Oct 18 18:47 $$致命錯誤:四捨五入為 0.498046875,預計小於 0.4 $$ Worker #4 Oct 18 18:47 $$檢測到硬體故障,請查閱stress.txt 文件。

壓力.txt 文件本身對於導致此錯誤的原因並不是很詳細,所以我想問一下這裡是否有人碰巧知道導致此問題的原因是什麼?我可以執行其他一些測試來進一步解決問題嗎?

在整個壓力測試期間系統(和所有核心)的溫度都很好(+69.0°C(高 = +80.0°C,臨界 = +98.0°C))有問題的 CPU 是Intel Core i7-2600K CPU @ 3.40GHz,未超頻或以任何方式修改。

另外有趣的是,如果我執行 mprime 只對 CPU 施加壓力,所有測試都可以通過。僅當我讓 mprime 對 CPU+RAM 施加壓力時才會觸發該錯誤。

mprime 不會給出誤報,因此您可以假設您有硬體問題。您想一次更換一個具有已知良好元件的組件,並執行相同的測試。我將從 RAM 開始(儘管通過了 memtest),然後是電源,然後是 CPU,然後是主機板。

如果您沒有備用系統或無法使用兼容元件,您可以嘗試一些方法,但可能找不到明確的原因。首先,檢查所有風扇是否自由旋轉。其次,檢查電源的溫度,以及主機板上的 VRM 和 PCH。如果您的伺服器沒有這些探針,請接地,然後用手指觸摸它們。它們可能很熱,但不會太熱,以至於您無法將手指放在它們上面。第三,移除除第一個插槽之外的所有 RAM 模組(如主機板上標記的那樣),如果測試仍然失敗,請將那個替換為您移除的一個。如果兩個或更多失敗,您可以放心地認為它不是 RAM。

引用自:https://serverfault.com/questions/547054