Linux
我的 CentOS 伺服器上是否已經有一個硬體看門狗處於活動狀態?
我以低成本的託管服務租用了一台專用伺服器(帶有 Intel Haswell CPU 和定制硬體),並將它與 CentOS 6.4 / 64 位 Linux(帶有股票核心:2.6.32-358.14.1.el6.x86_64)一起使用。
每隔幾週它就會掛起,其他客戶似乎也有類似的問題。
在
dmesg
我看到的輸出中(這裡是完整的 dmesg 輸出):CPU0: Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz stepping 03 .... NMI watchdog enabled, takes one hw-pmu counter. .... iTCO_wdt: Intel TCO WatchDog Timer Driver v1.07rh iTCO_wdt: Found a Lynx Point TCO device (Version=2, TCOBASE=0x1860) iTCO_wdt: initialized. heartbeat=30 sec (nowayout=0)
在程序列表中我看到:
# ps uawwwx|grep [w]atchdog root 6 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/0] root 10 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/1] root 14 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/2] root 18 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/3] root 22 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/4] root 26 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/5] root 30 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/6] root 34 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/7]
這是否意味著,硬體看門狗已經在我的伺服器上處於活動狀態,並且會在凍結後 30 秒內重新啟動我的機器?
(在我放的 /etc/sysctl.conf 中
kernel.panic=10
,這樣它就不會再卡在 kdb 控制台中了)。還是我必須安裝並啟動 CentOS 軟體包
watchdog
?
Linux 有一個通用的看門狗介面。您可以通過啟用iTCO_wdt 硬體支持的 NMI 看門狗或安裝和配置不依賴於硬體的軟體看門狗來使用它。
好吧,這裡有幾個問題需要解決……
- 伺服器掛起時會發生什麼?螢幕上有什麼?日誌中有什麼?您是否必須與託管服務提供商合作才能重新啟動?您可以自己執行重置嗎?
- **您的伺服器不應掛起、停止或崩潰!!**在使用低端、DIY 或定制硬體的環境中工作過,我了解服務提供商的目標是降低成本。但是,如果存在穩定性問題,則提供商有責任修復這些問題。搭建一個穩定的Linux伺服器平台並不難。然而,它比它應該發生的頻率更高。如果硬體/軟體/作業系統/韌體的組合是有毒的,那是一個不好的跡象。提供商的運營規模應該能夠在問題影響多個客戶之前了解問題。
- 您的硬體是否有 IPMI 設備?您有 IPMI 訪問權限嗎?通常,看門狗是帶外管理設備的一部分。例如,HP ProLiant 伺服器具有自動伺服器恢復 (ASR)功能集來處理此問題。
- 您的系統檢測到的設備是正在使用的英特爾晶片組的一部分。所以從技術上講,有一個看門狗設備,並且有通用的核心支持(看起來它在 CentOSPlus 核心中,而不是你擁有的那個)。但是,看門狗包可以作為軟體級看門狗提供幫助,在您可能擁有的硬體掛鉤之外。
但同樣,你在這裡治療症狀。找到根本原因很重要。如果其他客戶遇到這些問題,您都需要與服務提供商一起解決。