Hardware

HP ProLiant DL360 G7 在“電源和熱校準”螢幕上掛起

  • August 3, 2016

我有一個新的HP ProLiant DL360 G7系統出現難以重現的問題。伺服器在POST 過程中隨機掛在*“正在進行電源和熱校準… ”*螢幕。這通常在從已安裝的作業系統進行熱啟動/重新啟動之後。

在此處輸入圖像描述

此時系統無限期停止。通過 ILO 3 電源控制發出複位或冷啟動可使系統正常啟動而不會發生意外。

當系統處於此狀態時,ILO 3 界面完全可以訪問,並且所有系統執行狀況指示燈都正常(全為綠色)。伺服器位於氣候受控的數據中心內,並與 PDU 相連。環境溫度為 64°F/17°C。該系統在部署之前被置於 24 小時的組件測試循環中,沒有出現任何故障。

該伺服器的主要作業系統是 VMWare ESXi 5。我們最初嘗試了 5.0 和後來的 5.1 版本。兩者都是通過 PXE 引導和 kickstart 部署的。此外,我們正在使用裸機 Windows 和 Red Hat Linux 安裝進行測試。

HP ProLiant 系統具有一套全面的 BIOS 選項。除了靜態高性能配置文件之外,我們還嘗試了預設設置。我已經禁用了啟動啟動畫面,只是在那個時候得到一個閃爍的游標,而不是上面的螢幕截圖。我們還嘗試了一些用於 BIOS配置的 VMWare “最佳實踐” 。我們已經看到來自 HP 的諮詢似乎概述了類似的問題,但沒有解決我們的具體問題。

懷疑是硬體問題,我讓供應商發送了一個相同的系統,以便當日交貨。新伺服器是一個完全相同的建構,但磁碟除外。我們將磁碟從舊伺服器移至新伺服器。我們在更換硬體上遇到了同樣的隨機啟動問題。

我現在讓兩台伺服器並行執行。這個問題在熱靴上隨機出現。冷靴似乎沒有問題。我正在研究一些更深奧的 BIOS 設置,例如禁用 Turbo Boost 或完全禁用電源校準功能。我可以試試這些,但它們不是必需的。

有什麼想法嗎?

  • 編輯 -

系統詳情:

  • DL360 G7 - 2 x X5670 六核 CPU
  • 96GB RAM(12 個 8GB 低壓 DIMM)
  • 2 個 146GB 15k SAS 硬碟
  • 2 個 750W 冗餘電源

所有韌體都是最新的 HP Service Pack for ProLiant DVD 版本。

致電 HP 並蒐索 interwebz,我看到有人提到 ILO 3 互動不佳,但這也發生在物理控制台上的伺服器上。惠普還建議使用電源,但這是在成功為其他生產系統供電的數據中心機架中。

這可能是低壓 DIMM 和 750W 電源之間的不良互動嗎?此伺服器應該是受支持的配置。

因此,在引入第三個系統並遇到同樣的問題後,我們開始質疑環境。我翻出了一份《HP ProLiant 伺服器故障排除指南》,發現瞭如下所示的 POST 問題流程圖。

在此處輸入圖像描述

仔細執行圖表中的步驟,我們意識到所有伺服器中的一個常量是連接到數據中心崩潰推車的 KVM 切換器。這是一款支持 USB 的消費級 KVM。根據流程圖中突出顯示的節點,你知道好的 KVM 嗎?,我無法肯定地回答。

因此,我們從 KVM 切換器上拔下伺服器並執行自動啟動,sleep 300; reboot順序為rc.local. 無論普通 DIMM、低壓 DIMM、PSU 瓦數等如何,伺服器都沒有問題。

這都是與 USB KVM 切換器互動不佳的結果。由於這是控制台,它確保我們在尋找它時會看到失敗。自我實現…

引用自:https://serverfault.com/questions/465883