Redhat

什麼會導致核心在 redhat 4 上掛起?

  • January 9, 2011

我必須在十台機器“集群”上解決一個令人討厭的問題:這些機器中的一台在硬計算期間隨機掛起,有時仍然 ping 有時不。

問題是在電話中描述的,我仍然沒有觸摸/看到這些機器,所以我不能更準確。似乎沒有(真正的)鍵盤或顯示器連結到它們,所以我對鍵盤指示燈或顯示器上的消息一無所知。

別擔心,我真正需要的是一些在哪裡搜尋問題的建議,一些關於什麼會導致核心在工作機器上掛起的建議。

我也看到了這篇文章,但在不同的情況下似乎同樣需要。

從現在開始我的想法:

  • 硬體問題(記憶體、cpu、風扇等)

  • 錯誤的 autofs 配置

  • 錯誤的 nfs(?)配置

  • 存在木馬/黑客/等

  • 連結到 /dev/zero 的 /dev/“swap”

  • 核心記憶體不足(??)

  • 核心錯誤

換句話說,我試圖想像會發生什麼樣的事件,從而使生成該事件的應用程序的核心崩潰。

YOU以前經歷過什麼掛?寫給我!

射線

首先,雖然 RHEL 4 本身已經很老了,但它仍然得到維護,您可以嘗試使用最新的更新檔進行更新(參見Wiki 資訊)。

核心恐慌/掛起可能有很多原因。我所經歷的主要是由於

  1. 記憶體問題:在 CD 上安裝(例如)一個 Ubuntu 版本,然後在其上啟動它只是執行memtest86+,它會主動檢查記憶體(可能需要一些時間才能發現問題)。
  2. 硬體問題:導致意外中斷,使系統處於不可恢復的狀態,將核心執行發送到“空間”,破壞堆棧……
  3. 模組問題:不合適的模組(例如與硬體不完全匹配的模組,或有問題的模組)具有特權訪問權限,可能會掛起系統。較舊的核心尤其處於危險之中(較新的版本可以更好地恢復有缺陷的模組問題)。

還看到了由於以下原因導致的神秘(舊)系統掛起

  1. 主機板 CMOS 電池沒電了(換它,很便宜)。
  2. 一根壞的網線

也許是升級到更新系統的正確時機(如今,擁有一台帶有 Ubuntu 10.04.1 LTS 的伺服器並沒有錯)。

引用自:https://serverfault.com/questions/220314