Monitoring

如果在一段時間內沒有收到任何活動,是否有監控軟體套件會提醒我?

  • October 2, 2019

這可能是一個非常基本的問題,但我不太熟悉 Nagios 與 Munin 與其他監控工具的確切特徵。

假設由於一些非常重要的基礎設施原因,我們有一個需要每天執行的流程。在有人注意到之前,我們已經遇到過該過程沒有執行或以其他方式關閉了幾天的情況。

我想建立一個系統,使我能夠很容易地知道什麼時候由於某種原因沒有進行日常執行。

我可以設置此過程以在每次成功執行(或每次失敗執行)時發送電子郵件,但我不相信收到此電子郵件的人會注意到缺少“我很好”消息。

我所設想的是某種類型的“tripwire”服務,這個 VIP(非常重要的程序)可以在每次執行時向其發送狀態消息,無論成功與否;如果“tripwire”服務在可配置的時間內沒有收到 VIP 的任何消息,它可以向某人發送警報。

(我所設想的與我概述的第一種方法之間的區別在於,服務僅在異常情況下發送消息,而不是每天發送狀態正常/正常的消息的服務)。

如果 Nagios 在 N 天內沒有收到某個服務/設備/程序的消息,是否可以設置它來發送這樣的警報?是否有其他工具具有此功能?

Nagios 完全支持你想要的。看看被動檢查和新鮮度。基本上,您為您的工作定義一個主機和服務,並告訴 Nagios 該服務是被動的並且具有特定的新鮮度門檻值(例如 26 小時)。每當您的程序執行時,讓它向 Nagios 送出一個“OK”結果。Nagios 會跟踪送出 OK 的時間,如果 26 小時內沒有發布,它會發布通知。

該頁面上有一個範例。

Nagios 只是執行一個命令並查看結果程式碼。這意味著 Nagios 幾乎可以監視任何東西,假設您可以編寫一個返回適當狀態的命令。

在您的情況下,如果您的程序可以寫入文件,您可以使用庫存的 Nagios check_file_age外掛,如果文件在一定時間內沒有被修改,它將發出警報。

當然,您也可以讓 Nagios 檢查郵箱並在沒有定期收到消息時生成警報。

引用自:https://serverfault.com/questions/219148