Linux

我的 CentOS 伺服器上是否已經有一個硬體看門狗處於活動狀態?

  • June 22, 2016

我以低成本的託管服務租用了一台專用伺服器(帶有 Intel Haswell CPU 和定制硬體),並將它與 CentOS 6.4 / 64 位 Linux(帶有股票核心:2.6.32-358.14.1.el6.x86_64)一起使用。

每隔幾週它就會掛起,其他客戶似乎也有類似的問題。

dmesg我看到的輸出中(這裡是完整的 dmesg 輸出):

CPU0: Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz stepping 03
....
NMI watchdog enabled, takes one hw-pmu counter.
....
iTCO_wdt: Intel TCO WatchDog Timer Driver v1.07rh
iTCO_wdt: Found a Lynx Point TCO device (Version=2, TCOBASE=0x1860)
iTCO_wdt: initialized. heartbeat=30 sec (nowayout=0)

在程序列表中我看到:

#  ps uawwwx|grep [w]atchdog
root         6  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/0]
root        10  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/1]
root        14  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/2]
root        18  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/3]
root        22  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/4]
root        26  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/5]
root        30  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/6]
root        34  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/7]

這是否意味著,硬體看門狗已經在我的伺服器上處於活動狀態,並且會在凍結後 30 秒內重新啟動我的機器?

(在我放的 /etc/sysctl.conf 中kernel.panic=10,這樣它就不會再卡在 kdb 控制台中了)。

還是我必須安裝並啟動 CentOS 軟體包watchdog

Linux 有一個通用的看門狗介面。您可以通過啟用iTCO_wdt 硬體支持的 NMI 看門狗或安裝和配置不依賴於硬體的軟體看門狗來使用它。

好吧,這裡有幾個問題需要解決……

  • 伺服器掛起時會發生什麼?螢幕上有什麼?日誌中有什麼?您是否必須與託管服務提供商合作才能重新啟動?您可以自己執行重置嗎?
  • **您的伺服器不應掛起、停止或崩潰!!**在使用低端、DIY 或定制硬體的環境中工作過,我了解服務提供商的目標是降低成本。但是,如果存在穩定性問題,則提供商有責任修復這些問題。搭建一個穩定的Linux伺服器平台並不難。然而,它比它應該發生的頻率更高。如果硬體/軟體/作業系統/韌體的組合是有毒的,那是一個不好的跡象。提供商的運營規模應該能夠在問題影響多個客戶之前了解問題。
  • 您的硬體是否有 IPMI 設備?您有 IPMI 訪問權限嗎?通常,看門狗是帶外管理設備的一部分。例如,HP ProLiant 伺服器具有自動伺服器恢復 (ASR)功能集來處理此問題。
  • 您的系統檢測到的設備是正在使用的英特爾晶片組的一部分。所以從技術上講,有一個看門狗設備,並且有通用的核心支持(看起來它在 CentOSPlus 核心中,而不是你擁有的那個)。但是,看門狗包可以作為軟體級看門狗提供幫助,在您可能擁有的硬體掛鉤之外。

但同樣,你在這裡治療症狀。找到根本原因很重要。如果其他客戶遇到這些問題,您都需要與服務提供商一起解決。

引用自:https://serverfault.com/questions/533793