Windows

監控伺服器上的硬體

  • November 5, 2015

在我的公司,我們提供的硬體安裝都具有專用伺服器(Windows Server 2008、2012)。

確保伺服器保持健康(通過檢查磁碟的 LED、UPS 電池等)通常是我們客戶工作的一部分。

問題是他們經常忘記這樣做,例如,最近,我們發現了一個伺服器,在過去的 2 個月裡,它有一個帶有 2 個故障磁碟(6 個 + 1 個熱備用)的 raid 10。如果伺服器出現故障,這對我們的客戶來說將是一場災難,無論發生什麼,這都是我們的錯。

為了防止這種情況發生,我們希望管理伺服器的硬體,並在出現故障時向客戶和我們發送消息,以便我們能夠迅速採取適當的措施。

在伺服器上,我們有一個正在執行的 C# 應用程序,我們的目標是檢索應用程序中的不同硬體狀態以正確處理它。

總之,我想在我的應用程序中收集有關以下內容的警告和錯誤:

  • RAID 故障
  • 硬碟故障
  • 網卡問題
  • 磁碟空間越來越小
  • 其他硬體

是否有開箱即用的解決方案來獲取這些資訊?將這些資訊收集到事件查看器或日誌中的應用程序也很不錯。

我們嘗試了 :

  • 戴爾開放管理

我們仍然需要嘗試在我們的應用程序中獲取資訊。缺點是,它與製造商有關,無法收集所有資訊(例如 -> UPS 電池)。

  • IPMI/WMI

我們無法看到磁碟。我們被困在 RAID 控制器級別。我們在不同代的伺服器上也有不同的行為。

結合使用 Dell OpenManage Server Administrator (DOMSA)、Dell OpenManage Essentials (DOME) 和 SNMP,您可以將伺服器配置為通過 SNMP 陷阱向您發送硬體警報。這將需要您在伺服器上安裝 DOMSA 和 SNMP,並將它們配置為將 SNMP 警報發送到您將在您的位置執行的 DOME 實例。您還需要允許您的客戶通過防火牆向您發送入站 SNMP。這不應該需要在客戶端進行任何配置。您可以在發送伺服器之前預先配置伺服器上的 SNMP 陷阱目標。

這可以讓您進行硬體層監控。對於作業系統層監控,您需要使用某種類型的基於代理的監控解決方案,該解決方案允許您監控磁碟空間使用率等內容,並且能夠生成和發送警報。我碰巧為我的客戶使用Pulseway 。它很便宜(每個系統每月大約 1.34 美元)。這使您可以在作業系統層進行監控,並為您提供遠端監控資訊和管理功能的聚寶盆。這是 Pulseway 控制面板的片段,我可以使用它來遠端訪問和使用我的遠端管理系統:

在此處輸入圖像描述

引用自:https://serverfault.com/questions/733874