Redhat
什麼會導致核心在 redhat 4 上掛起?
我必須在十台機器“集群”上解決一個令人討厭的問題:這些機器中的一台在硬計算期間隨機掛起,有時仍然 ping 有時不。
問題是在電話中描述的,我仍然沒有觸摸/看到這些機器,所以我不能更準確。似乎沒有(真正的)鍵盤或顯示器連結到它們,所以我對鍵盤指示燈或顯示器上的消息一無所知。
別擔心,我真正需要的是一些在哪裡搜尋問題的建議,一些關於什麼會導致核心在工作機器上掛起的建議。
我也看到了這篇文章,但在不同的情況下似乎同樣需要。
從現在開始我的想法:
硬體問題(記憶體、cpu、風扇等)
錯誤的 autofs 配置
錯誤的 nfs(?)配置
存在木馬/黑客/等
連結到 /dev/zero 的 /dev/“swap”
核心記憶體不足(??)
核心錯誤
換句話說,我試圖想像會發生什麼樣的事件,從而使生成該事件的應用程序的核心崩潰。
YOU
以前經歷過什麼掛?寫給我!射線
首先,雖然 RHEL 4 本身已經很老了,但它仍然得到維護,您可以嘗試使用最新的更新檔進行更新(參見Wiki 資訊)。
核心恐慌/掛起可能有很多原因。我所經歷的主要是由於
- 記憶體問題:在 CD 上安裝(例如)一個 Ubuntu 版本,然後在其上啟動它只是執行
memtest86+
,它會主動檢查記憶體(可能需要一些時間才能發現問題)。- 硬體問題:導致意外中斷,使系統處於不可恢復的狀態,將核心執行發送到“空間”,破壞堆棧……
- 模組問題:不合適的模組(例如與硬體不完全匹配的模組,或有問題的模組)具有特權訪問權限,可能會掛起系統。較舊的核心尤其處於危險之中(較新的版本可以更好地恢復有缺陷的模組問題)。
還看到了由於以下原因導致的神秘(舊)系統掛起
- 主機板 CMOS 電池沒電了(換它,很便宜)。
- 一根壞的網線
也許是升級到更新系統的正確時機(如今,擁有一台帶有 Ubuntu 10.04.1 LTS 的伺服器並沒有錯)。