Nagios（或類似工具）具有更多警報級別？

February 16, 2012

我正在關注 Web 應用程序中的一些業務指標（頁面瀏覽量、註冊等）的監控和警報。我們已經將 Nagios 和 Munin 用於各種伺服器監控和警報案例，這就是我從那裡開始的原因。
我可以為 Nagios 編寫自定義外掛來計算我們的統計資訊/控製圖表，並檢查這些指標何時低於理想水平（警告和嚴重），但我也想知道這些指標何時飆升至高於預期水平（更多註冊- 我們做對了！）。
有沒有辦法在 Nagios 或 Munin 中創建自定義警報級別以適應這些積極警報，或者我應該尋找另一種工具來解決這種情況？理想的工具是：
包括更多警報級別（嚴重、警告、正常、改進、尖峰）
允許我查看有關生成警報的報告的其他數據（指標的預期值和觀察值）
（很高興）允許我繪製指標的歷史記錄，以便在收到警報後視覺化觀察結果

許多 NAGIOS 外掛已經完全按照您的要求進行操作，並允許將 WARNING 和 CRITICAL 門檻值指定為一個範圍，當值超出（或可選地，在）該範圍內時發出警報。例如，來自/usr/lib/nagios/plugins/check_procs -h：
[...]
Usage:
check_procs -w &lt;range&gt; -c &lt;range&gt; [-m metric] [-s state] [-p ppid]
[-u user] [-r rss] [-z vsz] [-P %cpu] [-a argument-array]
[-C command] [-t timeout] [-v]
[...]
-w, --warning=RANGE
  Generate warning state if metric is outside this range
-c, --critical=RANGE
  Generate critical state if metric is outside this range
[...]
RANGEs are specified 'min:max' or 'min:' or ':max' (or 'max'). If
specified 'max:min', a warning status will be generated if the
count is inside the specified range
[...]
所以這個外掛已經有了這樣的想法：“如果 X 大於 C 或小於 B，則 X 是有問題的，如果它小於 A 或大於 D，它將是一場迫在眉睫的災難”（對於 A<B<C<D）。對我來說，這聽起來很像您所要求的，並且不需要重新建構 NAGIOS（OK/WARN/CRIT 概念被大量嵌入其中）。

引用自：https://serverfault.com/questions/360671

Nagios（或類似工具）具有更多警報級別？

相關問答

Munin 磁碟延遲警報

穆寧不發送電子郵件警報

Nagios 繪圖解決方案與 Munin/Cacti/Ganglia

服務關鍵時的不同通知間隔

拉取伺服器統計資訊以進行遠端監控

我應該在我的 Linux 伺服器上監控哪些指標？