Zabbix
從 zabbix 通過 ipmi 獲取電源狀態
我現在正在尋找一種方法來監控伺服器硬體,如風扇/電源等。問題是,我們有非常動態的環境 - 伺服器會自動打開/關閉 - 甚至一天幾次,具體取決於負載.
我為我們的超微伺服器創建了模板(我們只有 3-4 種類型,所以它們非常具體),其中包含風扇速度檢查(0 表示風扇已死)。但是,每次我關閉伺服器風扇速度也是0。
所以我現在正在搜尋如何通過 ipmi 獲取電源狀態(或伺服器正在執行的任何其他指標)以僅在伺服器正在執行時發送 zabbix 警報。
不幸的是,通過 ipmi 是必需的,因為我們以這種方式監控一些我們無權訪問的伺服器。
我想避免編寫將執行類似以下內容的腳本:ipmitool power status。Zabbix 有一個令人驚嘆的 ipmi 集成,所以我想盡可能多地使用它。
ipmitool 感測器返回:
root@virt1:~# ipmitool sensor System Temp | 28.000 | degrees C | ok | -9.000 | -7.000 | -5.000 | 75.000 | 77.000 | 79.000 CPU Temp | 0x0 | discrete | 0x0000| na | na | na | na | na | na FAN 1 | 8355.000 | RPM | ok | 400.000 | 585.000 | 770.000 | 29260.000 | 29815.000 | 30370.000 FAN 2 | 8355.000 | RPM | ok | 400.000 | 585.000 | 770.000 | 29260.000 | 29815.000 | 30370.000 FAN 3 | 8725.000 | RPM | ok | 400.000 | 585.000 | 770.000 | 29260.000 | 29815.000 | 30370.000 FAN 4 | na | RPM | na | na | na | na | na | na | na CPU Vcore | 1.144 | Volts | ok | 0.640 | 0.664 | 0.688 | 1.344 | 1.408 | 1.472 +3.3VCC | 3.280 | Volts | ok | 2.816 | 2.880 | 2.944 | 3.584 | 3.648 | 3.712 +12 V | 12.031 | Volts | ok | 10.494 | 10.600 | 10.706 | 13.091 | 13.197 | 13.303 DIMM | 1.544 | Volts | ok | 1.152 | 1.216 | 1.280 | 1.760 | 1.776 | 1.792 +5 V | 5.216 | Volts | ok | 4.096 | 4.320 | 4.576 | 5.344 | 5.600 | 5.632 +5VSB | 5.056 | Volts | ok | 4.096 | 4.320 | 4.576 | 5.344 | 5.600 | 5.632 VBAT | 3.232 | Volts | ok | 2.816 | 2.880 | 2.944 | 3.584 | 3.648 | 3.712 +3.3VSB | 3.280 | Volts | ok | 2.816 | 2.880 | 2.944 | 3.584 | 3.648 | 3.712 AVCC | 3.280 | Volts | ok | 2.816 | 2.880 | 2.944 | 3.584 | 3.648 | 3.712 Chassis Intru | 0x0 | discrete | 0x0000| na | na | na | na | na | na PS Status | 0x1 | discrete | 0x01ff| na | na | na | na | na | na root@virt1:~#
一種想法可能是查詢電源開/關感測器。它是一個離散感測器,請參閱 https://www.zabbix.com/documentation/2.2/manual/config/items/itemtypes/ipmi 有一個範例如何分析離散感測器的狀態。
如果無法監控電源開/關感測器,您可以讀取模擬電壓感測器,例如“+5V”(或更多電壓感測器)。如果電壓接近零,則伺服器可能已關閉(或電源出現故障)。
在 Zabbix 2.2 的預設安裝中,有兩個模板:“Template IPMI Intel SR1530”和“Template IPMI Intel SR1630”。兩者都包含一個“Power”項,查詢“power”感測器的值,看起來就是你需要的。如果不是,請描述您在使用該感測器時遇到的問題。