Monitoring
Nagios(或類似工具)具有更多警報級別?
我正在關注 Web 應用程序中的一些業務指標(頁面瀏覽量、註冊等)的監控和警報。我們已經將 Nagios 和 Munin 用於各種伺服器監控和警報案例,這就是我從那裡開始的原因。
我可以為 Nagios 編寫自定義外掛來計算我們的統計資訊/控製圖表,並檢查這些指標何時低於理想水平(警告和嚴重),但我也想知道這些指標何時飆升至高於預期水平(更多註冊- 我們做對了!)。
有沒有辦法在 Nagios 或 Munin 中創建自定義警報級別以適應這些積極警報,或者我應該尋找另一種工具來解決這種情況?理想的工具是:
- 包括更多警報級別(嚴重、警告、正常、改進、尖峰)
- 允許我查看有關生成警報的報告的其他數據(指標的預期值和觀察值)
- (很高興)允許我繪製指標的歷史記錄,以便在收到警報後視覺化觀察結果
許多 NAGIOS 外掛已經完全按照您的要求進行操作,並允許將 WARNING 和 CRITICAL 門檻值指定為一個範圍,當值超出(或可選地,在)該範圍內時發出警報。例如,來自
/usr/lib/nagios/plugins/check_procs -h
:[...] Usage: check_procs -w <range> -c <range> [-m metric] [-s state] [-p ppid] [-u user] [-r rss] [-z vsz] [-P %cpu] [-a argument-array] [-C command] [-t timeout] [-v] [...] -w, --warning=RANGE Generate warning state if metric is outside this range -c, --critical=RANGE Generate critical state if metric is outside this range [...] RANGEs are specified 'min:max' or 'min:' or ':max' (or 'max'). If specified 'max:min', a warning status will be generated if the count is inside the specified range [...]
所以這個外掛已經有了這樣的想法:“如果 X 大於 C 或小於 B,則 X 是有問題的,如果它小於 A 或大於 D,它將是一場迫在眉睫的災難”(對於 A<B<C<D)。對我來說,這聽起來很像您所要求的,並且不需要重新建構 NAGIOS(OK/WARN/CRIT 概念被大量嵌入其中)。