什麼警報設置可以讓我大致了解我的 Prometheus 警報狀態？

October 13, 2018

我正在使用 prometheus 和 alertmanager 在警報觸發時將消息發佈到 slack。兩者都是在 Kube 中自託管的。PII 問題使我無法使用託管儀表解決方案。
我正在尋找能讓我一目了然地查看所有警報目前狀態的選項。目前，系統故障可能會觸發 1-20 條警報，表現為 1-40 條鬆弛消息（警報高，警報低各一條），而且噪音太大，我可能會錯過一些東西。
我的偏好是一種工具，例如，每十分鐘發布一條鬆弛消息，並隨著狀態的變化不斷對其進行編輯。
我已經嘗試過 Grafana 儀表板，但我發現它並不實用，因為很少有人主動檢查它。
你們如何有效地觀察系統狀態的健康狀況？

沒有特定於 prometheus 的情況，一個好的監控系統會以兩種方式通知您：它會告訴您它認為您需要知道的內容，並讓您盡可能快速有效地找到您想知道的內容。
我個人的偏好是 NAGIOS，因為它的警報端非常複雜（多個警報通道、中斷時間段、確認和升級等），還因為它有一些非常好的概要視圖，讓我可以快速了解網路健康狀況。一眼。
我個人最喜歡後者的是（a）“圓形氣球”模式下的網路地圖，它讓我一眼就可以看到執行近千次服務檢查的大約一百個節點的健康狀況，以及（b）“未處理的服務問題” " 視圖，它為我提供了目前在我的網路上不正確的所有內容的詳細列表。
但是任何能有效完成這兩件事的工具（通知您並為您提供概要）都應該有所幫助。嘗試一些，直到找到適合您的。

引用自：https://serverfault.com/questions/930319

相關問答

調試 Prometheus Blackbox Exporter http_2xx probs

February 22, 2022

Prometheus 未連接到 GKE 中的警報管理器

October 19, 2021

如何找出儲存在 Prometheus LevelDB 中的時間序列數量

September 19, 2021

Prometheus：抓取間隔為1m，但解析度仍為15s

July 2, 2021

Prometheus 自動從 kubernetes 中的多個 kube-state-metrics 中抓取指標？

October 27, 2020

Promethius、group_left 和“on”與“ignoring”

September 5, 2020