Monitoring

我在監控解決方案中尋找什麼?

  • August 22, 2019

這是一個關於監控軟體的規範問題。

另相關:您使用什麼工具來監控您的伺服器?

我需要監控我的伺服器;在決定監控解決方案時我需要考慮什麼?

有很多監控解決方案。每個人都有自己的喜好,每個企業都有自己的需求,所以沒有正確的答案。但是,我可以幫助您弄清楚在選擇監控解決方案時可能要尋找什麼。

監控系統有什麼用?

一般來說,監控系統有兩個主要目的。首先是隨著時間的推移收集和儲存數據。例如,您可能希望收集 CPU 使用率並隨時間繪製圖表。第二個目的是在事情沒有響應或不在特定門檻值內時發出警報。例如,如果無法通過 ping 訪問某個伺服器或 CPU 使用率高於某個百分比,您可能需要警報。還有諸如 Splunk 之類的日誌監控系統,但我將它們視為單獨的。

這兩個主要角色有時出現在一個產品中,有時更常見的是有一個專門用於每個目的的產品。

監控系統的主要組件和功能是什麼?

輪詢器:

所有監控系統都需要某種輪詢器來收集數據。並非所有數據都以相同的方式收集。您應該查看您的環境並決定您需要哪些數據以及如何收集這些數據。然後確保您選擇的監控系統支持您的需求。一些常見的方法包括:

  • SNMP(簡單網路管理協議)
  • WMI(Windows 管理規範)
  • 執行腳本(例如,在被監控的機器上執行腳本或從使用自己的輪詢方法的監控框本身執行腳本)。這些可以包括諸如 Bash 腳本、Perl 腳本、執行檔和 Powershell 腳本之類的東西
  • 基於代理的監控。有了這些,一個程序在每個客戶端上執行並收集該數據。此數據要麼被推送到監控伺服器,要麼監控伺服器輪詢代理。一些管理員可以使用代理,而另一些管理員則不喜歡它們,因為它會在被監控的伺服器上留下更大的足跡。
  • 重點 API(即 VMWare API 或執行 SQL 查詢的能力)

如果您的環境中主要有一個作業系統或主要作業系統,則某些系統可能比其他系統具有更多選項。

配置

在監控系統中,往往有很多對象重用。例如,您想監控一組伺服器上的某個應用程序,例如 Apache 或 IIS。或者您希望某些門檻值適用於伺服器組。您可能還有某些群體要“隨叫隨到”。因此,一個好的模板系統對於監控系統來說是至關重要的。

配置通常通過使用者界面或文本文件完成。使用者界面選項通常會更容易,但文本文件往往更適合重用和變數。因此,根據您的 IT 員工,您可能更喜歡簡單而不是功能。

使用者界面

如今,監控系統最常見的界面是 Web 界面。關於 Web 界面需要評估的一些事項是:

  • 很好的概述
  • 好的細節頁面
  • 速度(當您需要在危機模式下查找資訊時,緩慢的界面可能會非常令人沮喪
  • 感覺一般。您將在界面上花費大量時間,如果感覺笨拙,您的 IT 人員會覺得使用它有抗拒感
  • 定制。每個組織都有某些重要的事情,以及其他不重要的事情。能夠根據您的需要對其進行定制很重要

警報引擎

警報引擎必須靈活可靠。有很多不同的通知方式,包括:

  • 簡訊
  • 電子郵件
  • 電話
  • IM/Jabber 等其他內容

其他要尋找的功能是:

  • 升級(如果對方未確認或修復警報,請通知某人)
  • 輪換和輪班
  • 組(某些組需要被通知某些事情)

重要的是要相信,當出現問題時,您會收到警報。這歸結為兩件事:

  1. 可靠的系統
  2. 無警告配置。在監控系統中,通常認為您應該收到警報,但由於配置中的一些細節,警報從未被觸發。

數據儲存

如果系統收集和儲存數據(即包含圖形的系統),則係統儲存數據。例如,儲存和繪圖的一個非常常見的實現是 RRD。

要從數據儲存中查找的一些功能是:

  • 對數據的原始訪問。這對於使用 Excel 之類的東西開發或創建自定義圖表可能很有價值。
  • 可擴展性。根據您收集的數據量,它可以快速增加,如果您要收集很多,您希望確保它能夠擴展。

圖形庫

圖形可用於快速辨識趨勢並根據其歷史為某事物的目前狀態提供上下文。一些包括趨勢,這有助於在事情發生之前預測事情(即磁碟空間不足)。確保圖表能夠以清晰的方式為您提供您認為需要的資訊。

訪問控制

如果您有一個大型組織,您可能需要訪問控制,因為某些管理員應該只能調整某些事情。您可能還需要面向公眾的儀表板。如果這很重要,您應該確保監控系統具有您需要的控制項。

其他特性

報告

提供良好報告的系統可以幫助您確定長期需要改進的地方。例如,它可以很好地回答“哪些系統故障最多?”之類的問題。當您試圖說服管理層將錢花在某些事情上時,這可能很重要——業務就像確鑿的證據。

特殊功能

某些監控系統針對特定產品或比其他系統具有更多支持。例如,如果您需要監控的主要內容是 SQL 伺服器,或者如果您大量使用 VMWare 產品,您應該了解這些產品的支持情況。

預定義監控模板

帶有大量預定義模板(或擁有創建了許多模板的使用者群)的系統可以節省大量時間。

發現

如果您有一個大型或不斷變化的環境。一些系統提供通過 API 添加新系統或執行掃描以查找新伺服器或組件的能力。

分佈式監控:

如果您有多個位置要監控,那麼在每個位置都有監控輪詢器會很有幫助,而不是通過 WAN 監控許多獨立系統。

一些流行的監控系統

那裡有很多監控系統。我們有一個關於這個老問題的總結清單。為了快速參考,我聽到最多的一些是:

  • 納吉奧斯
  • 仙人掌
  • 開放式網路管理系統
  • 太陽風
  • 扎比克斯
  • 各種基於雲的監控系統
  • 微軟系統中心
  • 這個還不流行,但是 Stack Exchange 已經開源了它的監控系統http://bosun.org

如何根據以上來判斷

我不能告訴你使用什麼的原因是因為每個組織都有自己的需求。如果您想做出正確的選擇,您應該仔細考慮上述所有組件並找出哪些功能對您的組織很重要。然後找到一個或多個聲稱可以提供您需要的系統並試用它們。其中一些花費一點點,很多,或者是免費的。考慮到所有這些,您就可以做出選擇。從我使用的情況來看,它們都遠非完美,但至少你可以嘗試得到適合的東西。

引用自:https://serverfault.com/questions/394393