為什麼我的伺服器意外宕機？

July 30, 2009

我有基於 CentOS 5.3 的伺服器，核心為 2.6.18-128.2.1.el5。它工作了將近一個月，但本週它下降了三倍。我在 Nagios 看到它，寫一封電子郵件重新啟動伺服器。它工作了 12-36 小時，然後又下降了。
我查看日誌文件。就在第一次出現故障之前/var/log/messages是這條消息：
logrotate: ALERT 異常退出 [1]
第二次重新啟動伺服器後，系統管理員從數據中心向我發送此螢幕截圖： alt text http://www.freeimagehosting.net/uploads/bd9fb68d98.png 在第三個故障之前/var/log/messages是消息：
哎呀！page_mapcount(page) 變為負數 (-1)
我應該如何調查問題？
UPS：
部分memtester輸出：
比較 OR : FAILURE: 0x7e9f90d1 != 0x7e9fd2d1 在偏移 0x06222609。
失敗：0x7e9f90d1 ！= 0x7e9fd0d1 在偏移量 0x06222621。
失敗：0x7e9f90d1 ！= 0x7e9fd1d1 在偏移量 0x06222661。
失敗：0x7e9f90d1 ！= 0x7e9f92d1 在偏移量 0x06222681。
失敗：0x7e9f90d1 ！= 0x7e9fd0d1 在偏移量 0x062226a1。
失敗：0x7e9f90d1 ！= 0x7e9fd0d1 在偏移量 0x062226c1。
失敗：0x7e9f90d1 ！= 0x7e9f93d1 在偏移量 0x062226e9。
是記憶體有問題。謝謝你的幫助！

我的第一個猜測是 Nagios 存在少量記憶體洩漏，並且在執行數月後耗盡了 RAM 或交換空間。但是，由於機器在同一天崩潰了幾次，這表明 RAM 晶片有故障。我的第一步是進行記憶體測試或檢查錯誤的記憶體日誌（如果您的伺服器支持它）。

我也投票給有缺陷的公羊。我建議使用memtest86對 ram 進行徹底檢查。另外，房間裡的溫度是否涼爽涼爽？

引用自：https://serverfault.com/questions/47992

為什麼我的伺服器意外宕機？

相關問答

伺服器隨機凍結並僅在冷啟動時啟動

在正在執行的機器上創建交換文件時伺服器崩潰（CentOS Linux）

CentOS54 伺服器不見了，沒有 ssh，沒有 ping，控制台掛了。日誌中沒有任何內容

無法執行二進製文件：Centos 上的執行格式錯誤

如何在 Linux 上刪除“update-alternatives”連結

SELINUX：如何使子文件夾規則優先級高於父規則