Linux

為什麼我的伺服器意外宕機?

  • July 30, 2009

我有基於 CentOS 5.3 的伺服器,核心為 2.6.18-128.2.1.el5。它工作了將近一個月,但本週它下降了三倍。我在 Nagios 看到它,寫一封電子郵件重新啟動伺服器。它工作了 12-36 小時,然後又下降了。

我查看日誌文件。就在第一次出現故障之前/var/log/messages是這條消息:

logrotate: ALERT 異常退出 [1]

第二次重新啟動伺服器後,系統管理員從數據中心向我發送此螢幕截圖: alt text http://www.freeimagehosting.net/uploads/bd9fb68d98.png 在第三個故障之前/var/log/messages是消息:

哎呀!page_mapcount(page) 變為負數 (-1)

我應該如何調查問題?

UPS:

部分memtester輸出:

比較 OR : FAILURE: 0x7e9f90d1 != 0x7e9fd2d1 在偏移 0x06222609。
失敗:0x7e9f90d1 != 0x7e9fd0d1 在偏移量 0x06222621。
失敗:0x7e9f90d1 != 0x7e9fd1d1 在偏移量 0x06222661。
失敗:0x7e9f90d1 != 0x7e9f92d1 在偏移量 0x06222681。
失敗:0x7e9f90d1 != 0x7e9fd0d1 在偏移量 0x062226a1。
失敗:0x7e9f90d1 != 0x7e9fd0d1 在偏移量 0x062226c1。
失敗:0x7e9f90d1 != 0x7e9f93d1 在偏移量 0x062226e9。

是記憶體有問題。謝謝你的幫助!

我的第一個猜測是 Nagios 存在少量記憶體洩漏,並且在執行數月後耗盡了 RAM 或交換空間。但是,由於機器在同一天崩潰了幾次,這表明 RAM 晶片有故障。我的第一步是進行記憶體測試或檢查錯誤的記憶體日誌(如果您的伺服器支持它)。

我也投票給有缺陷的公羊。我建議使用memtest86對 ram 進行徹底檢查。另外,房間裡的溫度是否涼爽涼爽?

引用自:https://serverfault.com/questions/47992