Linux
為什麼我的伺服器意外宕機?
我有基於 CentOS 5.3 的伺服器,核心為 2.6.18-128.2.1.el5。它工作了將近一個月,但本週它下降了三倍。我在 Nagios 看到它,寫一封電子郵件重新啟動伺服器。它工作了 12-36 小時,然後又下降了。
我查看日誌文件。就在第一次出現故障之前
/var/log/messages
是這條消息:logrotate: ALERT 異常退出 [1]
第二次重新啟動伺服器後,系統管理員從數據中心向我發送此螢幕截圖: alt text http://www.freeimagehosting.net/uploads/bd9fb68d98.png 在第三個故障之前
/var/log/messages
是消息:哎呀!page_mapcount(page) 變為負數 (-1)
我應該如何調查問題?
UPS:
部分
memtester
輸出:比較 OR : FAILURE: 0x7e9f90d1 != 0x7e9fd2d1 在偏移 0x06222609。 失敗:0x7e9f90d1 != 0x7e9fd0d1 在偏移量 0x06222621。 失敗:0x7e9f90d1 != 0x7e9fd1d1 在偏移量 0x06222661。 失敗:0x7e9f90d1 != 0x7e9f92d1 在偏移量 0x06222681。 失敗:0x7e9f90d1 != 0x7e9fd0d1 在偏移量 0x062226a1。 失敗:0x7e9f90d1 != 0x7e9fd0d1 在偏移量 0x062226c1。 失敗:0x7e9f90d1 != 0x7e9f93d1 在偏移量 0x062226e9。
是記憶體有問題。謝謝你的幫助!
我的第一個猜測是 Nagios 存在少量記憶體洩漏,並且在執行數月後耗盡了 RAM 或交換空間。但是,由於機器在同一天崩潰了幾次,這表明 RAM 晶片有故障。我的第一步是進行記憶體測試或檢查錯誤的記憶體日誌(如果您的伺服器支持它)。
我也投票給有缺陷的公羊。我建議使用memtest86對 ram 進行徹底檢查。另外,房間裡的溫度是否涼爽涼爽?