Linux

伺服器隨機凍結並僅在冷啟動時啟動

  • January 9, 2022

我面臨著關於一台伺服器的非常奇怪的問題,它隨機凍結/掛起,伺服器上沒有輸出,並且不響應短鍵,並且需要冷啟動,當用冷啟動啟動時,啟動螢幕上根本沒有錯誤。

它在重負載下根本不會凍結,大約 9-20% 的 cpu wheb 崩潰,平均負載大約 2-5(12 核 cpu)和 128gb ram

我們嘗試檢查日誌,沒有顯示核心恐慌或與問題本身相關的任何內容。

在冷啟動後的所有凍結中,當我們檢查日誌時,我們確實看到正常的 OOM 收割者正在殺死 php procces(使用者達到限制)但沒有太濫用,但總是在 OOM 上,有時當伺服器凍結在日誌中時,您會看到目前時間,有時就像它在崩潰的目前時間之後顯示的舊日期幾行,並凍結。

日誌中沒有任何內容可以確定軟體相關,或者在重負載下,只是正常執行,這是從舊機器升級的機器,多年來穩定..凍結是隨機的,可能是伺服器啟動一周後,或者兩天或三個星期等等……

我們還嘗試提取伺服器凍結的 vmcore 轉儲,但仍然沒有擷取任何內容。

它只是凍結,沒有螢幕輸出,但伺服器仍在執行但不可發送,無法訪問 ssh,也 kvm 正如我所說的在螢幕上根本沒有輸出。

它可能與可能有故障的硬體有關嗎?因為我的暫停是關於記憶體故障?

我對這個問題非常迷茫..謝謝

我們剛剛遷移到另一台伺服器,但經過大量搜尋並嘗試調試後,看起來硬體問題與主機板有關,因為我在一些論壇中檢查過來自 asrock rack 和 ryzen cpus 的主機板,即使在 Windows 10 上,我也設法找到了幾個相同問題的案例或 Windows 伺服器出現藍屏當機。正如作業系統支持在這種情況下建議的那樣,不要更改主機板品牌,因為可能會被拒絕啟動,並像我們一樣遷移到新伺服器。在我們遷移到新伺服器後,所有問題都解決了。所以我想它確實與硬體問題而不是軟體有關。

  1. 確保溫度良好,CPU/RAM/CHIPSET/DISKS,由於 OOM,我假設您是 linux 使用者,安裝lm-sensors,並使用命令檢查 temps sensors
  2. 這是你的 RAM,執行 memtest86,注意 128GB 的​​完整測試可能需要一周時間。

引用自:https://serverfault.com/questions/1080950