Electrical-Power

HP ProCurve 5412zl 在連接到 UPS 時在電源故障時熱啟動

  • May 14, 2018

我客戶的HP ProCurve 5412zl 機箱開關有時會重新啟動,儘管它通過四個冗餘電源供電並處於 UPS 保護之下。

這些重啟通常發生在真正的停電或掉電或低電壓事件期間。除開關外,連接到 UPS 的所有設備都保持工作狀態。

用於機架的 UPS 是帶有降壓變壓器的 APC SmartUPS SUA3000XL 208V。該交換機為整個設施的電話和接入點提供 PoE。電池單元很健康,最近更換過並充滿電。

這些信號的作用是重新啟動設施中的所有電話並斷開使用者與其會話的連接。這是破壞性的。

在交換機日誌中:

Keys:   W=Warning   I=Information
        M=Major     D=Debug E=Error
----  Event Log listing: Events Since Boot  ----
I 02/17/16 22:26:31 03802 chassis: System Self test started on  Master
I 02/17/16 22:26:31 03803 chassis: System Self test completed on  Master
I 02/17/16 22:26:35 00061 system: -----------------------------------------
I 02/17/16 22:26:35 00062 system: Mgmt Module 1 went down without saving crash
           information
M 02/17/16 22:26:35 03001 system: System reboot due to Power Failure

和版本資訊:

valley-core# sh version
Image stamp:    /ws/swbuildm/rel_orlando_qaoff/code/build/btm(swbuildm_rel_orlando_qaoff_rel_orlando)
               Nov 19 2014 15:17:26
               K.15.16.0005
               335
Boot Image:     Secondary

多年來,我沒有意識到您必須修改此交換機型號的電源設置,但此單元正確配置以利用多個 PSU。

valley-core# sh power-over-ethernet

Status and Counters - System Power Status

 System Power Status    : Full redundancy
 PoE Power Status       : Full redundancy

Chassis power-over-ethernet:

 Total Available Power  :  600 W
 Total Failover Power   :  600 W
 Total Redundancy Power :  600 W
 Total Used Power       :  359 W +/- 6W
 Total Remaining Power  :  241 W

Internal Power

       Main Power
 PS    (Watts)       Status
 ----- ------------- ---------------------
 1     300           POE+ Connected
 2     300           POE+ Connected
 3     300           POE+ Connected
 4     300           POE+ Connected

External Power
       EPS1   /Not Connected.
       EPS2   /Not Connected.

其他 PSU 資訊:

valley-core# sh system power-consumption

Slot Power Usage:
Slot  Module Description                        Current Power
----- ----------------------------------------- ---------------
A     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
B     HP J9536A 20p GT PoE+/2p SFP+ v2 zl Mod   23 W
C     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
D     HP J9534A 24p Gig-T PoE+ v2 zl Module     19 W
E     HP J9534A 24p Gig-T PoE+ v2 zl Module     17 W
F     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
G     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
H     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
K     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
L     HP J9534A 24p Gig-T PoE+ v2 zl Module     19 W

valley-core# sh system power-supply

Power Supply Status:

PS#    Model       State        AC/DC  + V      Wattage
---- --------- ------------- ----------------- ---------
  1   Unknwn    Powered         AC 120V           875
  2   Unknwn    Powered         AC 120V           875
  3   Unknwn    Powered         AC 120V           875
  4   Unknwn    Powered         AC 120V           875

  4 /  4 supply bays delivering power.
  Total power: 3500 W

獨特之處在於開關是唯一斷電的設備。儘管使用相同的電池或 PDU,但所有連接的伺服器都沒有電源問題。

我可以承認,這個位置的電源很差,並且會出現電壓驟降和偶爾出現的尖峰。但在最近的熱啟動過程中,UPS 甚至沒有記錄故障。

我在一個不相關的客戶那裡有另一個 5412zl,過去曾多次做過同樣的事情。

關於我能做些什麼的任何想法?我是否應該嘗試將兩個 PSU 移至公用電源,而不是全部都在 UPS 上?


編輯:

開機歷史顯示:

valley-core#sh 啟動歷史

Mgmt Module 1 -- Saved Crash Information (most recent first):
=============================================================
ID: 29008d6a
Active system went down: 02/01/16 09:23:54 K.15.16.0005 335
Switch rebooting due to temporary loss of power or low voltage

ID: 994a405a
Active system went down: 12/14/15 11:31:15 K.15.16.0005 335
switch rebooting due to temporary loss of power or low voltage

先前韌體版本的 HP 更改說明說:

電源 (CR_0000112424) - 當交換機受到交流電源波動且電壓降得太低時,交換機會重新啟動並生成錯誤的錯誤消息,說明交換機已崩潰。使用此修復程序,錯誤消息更改為“由於暫時斷電或低電壓而重新啟動交換機”。

這與本技術說明一致。

我最初和直接的想法與您正在考慮的內容一致。如果這些光點的發生獨立於您在 UPS 上設置的任何自檢計劃(如果光點在自檢時發生一定百分比的時間,那麼您有 UPS/變壓器/負載問題),我會完全按照你的建議去做。將幾個 PSU 移動到不同的源,看看是否會再次出現光點。如果他們這樣做了——我並不是隨便建議的——向惠普開一個案子。這可能是一個痛苦而乏味的過程。但是,它們可能有助於提供指導以從交換機中獲取真實的調試資訊。我也會花點時間檢查交換機上目前韌體版本的發行說明/錯誤列表。

引用自:https://serverfault.com/questions/758100