Monitoring

是否有帶有故障單系統 + 重複數據刪除和智能警報抑制的良好監控、警報工具?

  • November 13, 2010

很長一段時間以來,我一直是 nagios 使用者。

最近,隨著我們伺服器機群規模的擴大,來自 nagios 的警報數量也在增加。信噪比變得非常低。例如。當一個公共服務失敗時——我所有使用該服務的負載平衡網路伺服器,因此檢查它是否開始發出警報。這與該服務可能以不同順序出現的系統警報相混合會導致大量噪音。

我可以花很多時間來確保我的 nagios 配置良好,但它越來越難以管理。我正在尋找一種工具(或 nagios 外掛)來執行重複數據刪除和智能抑制警報。此外,我希望在故障票務系統中跟踪“問題”/中斷 - 以便任何人都有一個地方可以很好地處理問題發生的情況。並查看存檔。

是的,在 Nagios 中我可以在某種程度上做到這一點 - 但它不是很好。

在查看時,我發現了大量工具(http://www.slac.stanford.edu/xorg/nmtf/nmtf-tools.html#public),但似乎沒有人談論重複數據刪除、問題跟踪和管理等問題

我想說你最好的選擇是帶有 RT 或 OTRS 集成的 OpenNMS。與 Nagios 不同,它是一個完整的 SNMP 管理解決方案,以 FCAPS(故障/配置/記帳/性能/安全管理)為重點。它如何處理這些類別中的每一個都取決於實施者。對於希望從 Nagios“升級”並擁有 Cacti 伺服器做類似事情的人來說,這是一個很好的解決方案。性能和故障數據的整合是絕對不可缺少的。文件有點落後於產品的目前狀態,但我最近一直在親自處理這個問題。

如果您想嘗試一下,請繼續按照 opennms.org wiki 上的快速入門說明進行操作,但停留在“發現”處,並查看新的預配置功能白皮書。它也是一個很棒的遷移工具。

它提供的基於事件的系統觸發警報面板的警報和…通知的通知。這些可以是通過星號、頁面、電子郵件、推特等進行的電話呼叫。當您或待命的工作人員收到通知時,您可以使用工作“ack”回復電子郵件,並確認通知並使用開始時間更新您的工單, ETC。

通知和警報的分離對於您的重複數據刪除請求來說是一個很棒的功能。根據發生的情況,您可以通過減少鍵減少這些警報,並且僅在門檻值時收到通知(但仍會觸發所有警報,以便您獲得數據)。有一些高級相關功能,但我還沒有真正深入研究它。

引用自:https://serverfault.com/questions/188430