Dell-Poweredge

Dell PowerEdge 伺服器(R210II 和 R620)何時會因過熱而自動關機?

  • December 26, 2020

我花了很長時間試圖找出戴爾 PowerEdge 伺服器(在我的情況下,我們有一堆帶有 iDRAC 的 R210II 和 R620)何時以及如何處理過熱問題。我不想等待 CPU 自我保護,理想情況下,伺服器本身應該通過在達到臨界門檻值之前向作業系統發出自我 IPMI 命令以關閉電源來處理一段時間內的高溫。例如,在 55C 時,向作業系統發出 IPMI 命令,如果伺服器達到 80C,拔掉插頭,等等…

問題是戴爾的所有文件都不清楚伺服器因過熱而關閉的時間或方式。

我的問題是,戴爾是否支持像這樣的熱管理正常關機,或者它只是一些關於臨界溫度的精美印刷或不清楚的文件,它會簡單地拔掉它自己的插頭?是否需要 Dell OpenManage 來支持這一點?

我真的很想避免必須執行插入各種網路的專用管理伺服器(試圖避免通過單個管理點在網路之間橋接)來遠端管理這樣的關機。這將是一個單點故障,它也受到與我的伺服器本身相同的硬編碼或不靈活的熱條件的影響。

我的 R620 中有 iDRAC。我將它們包括在 iDRAC 的遠端管理功能中,但此時我很失望 iDRAC 無法處理此問題。它的熱設置僅限於控制風扇速度和可怕的文件,並且在系統幫助中實際上並沒有說明何時可能會發生關機。

非常感謝任何現實世界的建議!謝謝你。

感謝 Thomas 探勘 OpenManage 文件參考。OMSA 需要安裝在某個地方,然後遠端或本地用於連接到 BMC,最終設置 IPMI PEF。我發現戴爾製作了一個部署工具包,其中基本上包含了 OMSA 用來完成此任務的所有工具。

Dell OpenManage 開發套件可在此處獲得:

http://www.dell.com/support/drivers/us/en/19/DriverDetails/Product/poweredge-r720?driverId=65JXF&osCode=RH60&fileId=3196318431&languageCode=EN&categoryId=SM

Linux 版本(似乎只有 64 位,曾經有一個 32 位版本,但我找不到)包括用於安裝韌體等的可引導映像……但也得到了一個控制台提示與所有可訪問的部署工具。下載它,刻錄它,將它插入伺服器並啟動它。在提示符下,您可以訪問“syscfg”命令。

可以在此處找到文件,但您需要的是參考指南!

http://www.dell.com/support/Manuals/us/en/19/Product/dell-opnmang-dplymnt-toolkit-v4.2

使用 syscfg 命令,您可以設置 PEF 以使 BMC 在發出正常 IPMI 警報時觸發操作。目前的用法如下所示:

syscfg pcp --filter=tempfail --filteraction=powerdown

現在,當 IPMI 通常會報告臨時故障警報時,BMC 將發出斷電事件。作業系統應通過 APIC 獲知該事件並嘗試正常關閉電源。除此之外,內置的熱門檻值將發揮作用。

如果您熟悉 ipmitool,您還可以檢查(並可能使用它設置 PEF,但我沒有嘗試過)您設置的新 PEF,如下所示:

ipmitool <options> pef list

如果你用 grep 搜尋“溫度”,你會看到如下內容:(不能從控制台進行 C&P)

11 | active | 0x11 | Temperature | Any | Critical | Threshold | (0x01/0x0204),<LC,<UC | Alert,Power-off | 1

Power-off 是新添加的 PEF 動作。

我還沒有弄清楚使用戴爾工具設置溫度門檻值的正確用法,但我使用的是 ipmitool!

ipmitool <options> sensor list | grep Ambient

Ambient Temp | 24.000 | degrees C | ok | na | na | 3.000 | 8.000 | 42.000 | 47.000 | na

然後,您可以根據 ipmitool 感測器門檻值參數使用情況設置新門檻值。這是一個範例,我將上限臨界門檻值更改為 48C:

ipmitool <options> sensor thresh "Ambient Temp" ucr 48.000

您可以嘗試手動發出上臨界溫度事件,但它似乎只發出事件並且不受 PEF 過濾器操作設置的影響。(發出事件 1 比手動辨識感測器等更容易……)

ipmitool <options> event 1

我所做的是將關機溫度設置為 25C,並在我們監控一切的同時與一位同事關閉我的伺服器機房空調 5 分鐘。目標伺服器在 25 攝氏度時關閉。

我能找到的最好的來自Spiceworks 論壇上的一個文章。回復來自戴爾代表:

有很多方法可以做到這一點。您是正確的,預設情況下沒有啟用正常關閉的任何選項,但是如果達到關鍵門檻值,伺服器將關閉。

您可以在 iDRAC/CMC 中設置警報操作。您可以將其設置為在達到溫度警告或臨界門檻值時關閉。您還可以在 OMSA 中設置平台事件或警報操作。OMSA 中還有一個部分處於熱關機狀態。您也可以將其設置為在那裡執行操作。此外,您可以將 OMSA 配置為在觸發事件時執行程序。您可以使用該功能在 Windows 中執行關機程序。

警報操作中的關機選項是正常關機。我建議您將其設置為在警告門檻值時關閉。如果您將其配置為臨界門檻值,它可能會嘗試正常關機,然後達到臨界限制並在正常關機完成之前執行硬關機。

我還閱讀了有關 OpenManage 的戴爾官方 PDF,其中提到了熱關機:

Dell OpenManage Server Administrator (OMSA) 使管理員能夠設置伺服器應執行緊急熱關機的溫度門檻值。

所以答案似乎是肯定的,戴爾伺服器確實支持正常熱關機,並且該溫度是可配置的。您可以在每台伺服器上使用 OpenManage Server Administrator 進行這些更改(我相信您可以在伺服器執行時進行這些更改)。您不需要安裝集中式 OpenManage 管理伺服器,儘管它可以簡化許多其他管理任務。

:EDIT:

我應該附加這些答案對於戴爾伺服器是通用的。我沒有找到任何特定於您列出的伺服器型號的資訊。

引用自:https://serverfault.com/questions/560943