Email

可擴展地監控電子郵件警報

  • May 11, 2017

任何人都知道一種可擴展地監控電子郵件警報的方法嗎?

對於我的許多現場服務,我讓他們通過電子郵件告訴我關鍵任務的成功(和失敗)。我在成功時發送電子郵件的原因是,有時失敗的性質是服務無法通過電子郵件發送失敗警報。

不幸的是,這無法擴展,我現在收到了很多警報,我並沒有真正監控它們,但是我不能對失敗發出警報,因為這在過去太不可靠了。

理想情況下,我想要一個類似於 Pingdom 的雲服務(或郵箱),我也可以發送/轉發這些警報,當它收到失敗警報或缺少成功警報時會通過電子郵件/簡訊給我。

有人有想法麼?

您的建議是有效地重新實施您的監控系統(通過將目前系統的警報饋送到另一個足夠聰明的監控系統,如果它沒有不斷地保證一切都很好,那麼它就知道出了什麼問題)。

這幾乎肯定不是您所需要的。您需要的是現場和非現場監控的組合,當某些事情發生故障時(通常來自內部系統,或者如果內部系統因某種原因發生故障,則來自外部系統)可靠地向您發送故障警報。


請牢記以下監控系統公理:

沒有充分的理由提醒成功。

成功警報是監控系統最常見的業餘錯誤配置。

監控系統應該只提醒您需要採取行動的事情。

根據定義,成功不是需要採取行動的事件,因此不應生成警報。

根據定義,沒有成功就是“失敗”,因此應該生成可操作的失敗警報。

發送“一切正常”狀態消息最終會訓練人們忽略來自監控系統的消息(因為大多數時候不需要採取任何措施)。您希望監控警報成為令人震驚的事件,激發人們採取行動,而不是從收件箱中刪除肌肉記憶中的正常滋擾。

引用自:https://serverfault.com/questions/454758