我的 CentOS 伺服器上是否已經有一個硬體看門狗處於活動狀態？

June 22, 2016

我以低成本的託管服務租用了一台專用伺服器（帶有 Intel Haswell CPU 和定制硬體），並將它與 CentOS 6.4 / 64 位 Linux（帶有股票核心：2.6.32-358.14.1.el6.x86_64）一起使用。
每隔幾週它就會掛起，其他客戶似乎也有類似的問題。
在dmesg我看到的輸出中（這裡是完整的 dmesg 輸出）：
CPU0: Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz stepping 03
....
NMI watchdog enabled, takes one hw-pmu counter.
....
iTCO_wdt: Intel TCO WatchDog Timer Driver v1.07rh
iTCO_wdt: Found a Lynx Point TCO device (Version=2, TCOBASE=0x1860)
iTCO_wdt: initialized. heartbeat=30 sec (nowayout=0)
在程序列表中我看到：
#  ps uawwwx|grep [w]atchdog
root         6  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/0]
root        10  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/1]
root        14  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/2]
root        18  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/3]
root        22  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/4]
root        26  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/5]
root        30  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/6]
root        34  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/7]
這是否意味著，硬體看門狗已經在我的伺服器上處於活動狀態，並且會在凍結後 30 秒內重新啟動我的機器？
（在我放的 /etc/sysctl.conf 中kernel.panic=10，這樣它就不會再卡在 kdb 控制台中了）。
還是我必須安裝並啟動 CentOS 軟體包watchdog？

Linux 有一個通用的看門狗介面。您可以通過啟用iTCO_wdt 硬體支持的 NMI 看門狗或安裝和配置不依賴於硬體的軟體看門狗來使用它。

好吧，這裡有幾個問題需要解決……
伺服器掛起時會發生什麼？螢幕上有什麼？日誌中有什麼？您是否必須與託管服務提供商合作才能重新啟動？您可以自己執行重置嗎？
**您的伺服器不應掛起、停止或崩潰！！**在使用低端、DIY 或定制硬體的環境中工作過，我了解服務提供商的目標是降低成本。但是，如果存在穩定性問題，則提供商有責任修復這些問題。搭建一個穩定的Linux伺服器平台並不難。然而，它比它應該發生的頻率更高。如果硬體/軟體/作業系統/韌體的組合是有毒的，那是一個不好的跡象。提供商的運營規模應該能夠在問題影響多個客戶之前了解問題。
您的硬體是否有 IPMI 設備？您有 IPMI 訪問權限嗎？通常，看門狗是帶外管理設備的一部分。例如，HP ProLiant 伺服器具有自動伺服器恢復 (ASR)功能集來處理此問題。
您的系統檢測到的設備是正在使用的英特爾晶片組的一部分。所以從技術上講，有一個看門狗設備，並且有通用的核心支持（看起來它在 CentOSPlus 核心中，而不是你擁有的那個）。但是，看門狗包可以作為軟體級看門狗提供幫助，在您可能擁有的硬體掛鉤之外。
但同樣，你在這裡治療症狀。找到根本原因很重要。如果其他客戶遇到這些問題，您都需要與服務提供商一起解決。

引用自：https://serverfault.com/questions/533793

我的 CentOS 伺服器上是否已經有一個硬體看門狗處於活動狀態？

相關問答

Linux 伺服器中的磁碟空間使用不正確

HP ProLiant DL360 G7 看門狗

如何檢查什麼/如果硬體看門狗在 linux 中可用？

具有 100GB 磁碟執行 docker/nomad 類型工作負載的 VM 的分區大小建議

無法使用任何 yum 命令：設備上沒有剩餘空間

伺服器隨機凍結並僅在冷啟動時啟動