Monitoring

Nagios(或類似工具)具有更多警報級別?

  • February 16, 2012

我正在關注 Web 應用程序中的一些業務指標(頁面瀏覽量、註冊等)的監控和警報。我們已經將 Nagios 和 Munin 用於各種伺服器監控和警報案例,這就是我從那裡開始的原因。

我可以為 Nagios 編寫自定義外掛來計算我們的統計資訊/控製圖表,並檢查這些指標何時低於理想水平(警告和嚴重),但我也想知道這些指標何時飆升至高於預期水平(更多註冊- 我們做對了!)。

有沒有辦法在 Nagios 或 Munin 中創建自定義警報級別以適應這些積極警報,或者我應該尋找另一種工具來解決這種情況?理想的工具是:

  1. 包括更多警報級別(嚴重、警告、正常、改進、尖峰)
  2. 允許我查看有關生成警報的報告的其他數據(指標的預期值和觀察值)
  3. (很高興)允許我繪製指標的歷史記錄,以便在收到警報後視覺化觀察結果

許多 NAGIOS 外掛已經完全按照您的要求進行操作,並允許將 WARNING 和 CRITICAL 門檻值指定為一個範圍,當值超出(或可選地,在)該範圍內時發出警報。例如,來自/usr/lib/nagios/plugins/check_procs -h

[...]
Usage:
check_procs -w <range> -c <range> [-m metric] [-s state] [-p ppid]
[-u user] [-r rss] [-z vsz] [-P %cpu] [-a argument-array]
[-C command] [-t timeout] [-v]
[...]
-w, --warning=RANGE
  Generate warning state if metric is outside this range
-c, --critical=RANGE
  Generate critical state if metric is outside this range
[...]
RANGEs are specified 'min:max' or 'min:' or ':max' (or 'max'). If
specified 'max:min', a warning status will be generated if the
count is inside the specified range
[...]

所以這個外掛已經有了這樣的想法:“如果 X 大於 C 或小於 B,則 X 是有問題的,如果它小於 A 或大於 D,它將是一場迫在眉睫的災難”(對於 A<B<C<D)。對我來說,這聽起來很像您所要求的,並且不需要重新建構 NAGIOS(OK/WARN/CRIT 概念被大量嵌入其中)。

引用自:https://serverfault.com/questions/360671