監控伺服器上的可用記憶體和 CPU 使用情況是否有意義？

August 8, 2018

我正在使用帶有一些主/衛星配置的 Icinga2 監控我的伺服器基礎架構。
在 Linux 和 Windows 主機上，我正在監視預設系統指標，例如 CPU 使用率和可用系統記憶體。在工作節點上，這些值通常可以達到 100%（或 5% 可用 RAM），因此我收到了許多並不真正令人不安的 CRITICAL 警報。
那麼，最好是：
只需避免監視可用記憶體和 CPU 使用情況
將關鍵警報設置為 0% 的可用記憶體和 100% 的 CPU 使用率
繼續監視它們，但沒有收到任何警報
簡單地丟棄警報
還有什麼？

您需要將監控門檻值調整為對您的特定環境有意義的值。
例如，在計算節點上，我們希望 CPU 使用率為 100%，因此這不是警報的可用門檻值。但是，如果平均負載永遠大於核心數或高 I/O 等待時間，則可能表明存在問題，因此請在這種情況下觀察這些值並相應地設置警報。
除此之外：如果您不使用某個值作為警告門檻值，則無需對其進行監控，但如果需要，您仍可以這樣做以保留使用情況統計資訊。再次：取決於您的環境。
哦，永遠不要有你丟棄的警報。這會導致警報疲勞，並且在某些時候，您可能會忽略重要警報，因為它會淹沒在所有噪音中。如果您不會對警報採取行動，請將其刪除。

引用自：https://serverfault.com/questions/925435

相關問答

是否有任何監控工具來創建場景/依賴項檢查？

November 18, 2021

如何找出儲存在 Prometheus LevelDB 中的時間序列數量

September 19, 2021

Windows-Server-2008

如何在 Windows Server 2008 R2 中釋放已用記憶體？

December 29, 2020

我需要一次執行多個程序，我應該使用哪個伺服器

June 8, 2020

Linux 上的系統範圍的文件訪問和系統呼叫監控？

May 30, 2020

使用 icinga 遠端代理執行遠端檢查命令

May 4, 2020