Ecc
CentOS 是否在某處記錄了任何此類錯誤,可以最終揭示“現在是時候為 ECC 付費了”
我有一個帶有 CentOS 的 32GB 非 ECC RAM 專用伺服器。
一天一次,它隨機崩潰,在 /var/log/kern.log、/var/log/messages、mysql、apache 中沒有任何錯誤。
CPU/RAM/IO 不是特別高也不是特別低。
CentOS 是否在某處記錄了任何此類錯誤,可以最終揭示“現在是時候為 ECC 付費了”?
您希望它記錄什麼?CentOS 無法知道非 ECC 記憶體的內容已損壞,因為它不可知;它只能知道記憶中的內容毫無意義,並以它發現的任何自相矛盾為由恐慌。這種不一致可能是由 RAM 損壞引起的,但也可能是由核心錯誤或其他原因引起的。
確定記憶體已損壞的唯一方法是使用明確支持檢查此類損壞的記憶體。也就是說,ECC 記憶體。
編輯:這與您提出的問題完全不同。但我的策略是:
memtest86+
在硬體上執行,看看是否有任何容易擷取的可重複錯誤,並syslog
在伺服器上啟用遠端 ging(當核心崩潰時,它通常會停止寫入 FS 但仍然可以擠壓NIC 的日誌消息),以查看下一次恐慌中記錄的內容。