Monitoring

監控伺服器上的可用記憶體和 CPU 使用情況是否有意義?

  • August 8, 2018

我正在使用帶有一些主/衛星配置的 Icinga2 監控我的伺服器基礎架構。

在 Linux 和 Windows 主機上,我正在監視預設系統指標,例如 CPU 使用率和可用系統記憶體。在工作節點上,這些值通常可以達到 100%(或 5% 可用 RAM),因此我收到了許多並不真正令人不安的 CRITICAL 警報。

那麼,最好是:

  • 只需避免監視可用記憶體和 CPU 使用情況
  • 將關鍵警報設置為 0% 的可用記憶體和 100% 的 CPU 使用率
  • 繼續監視它們,但沒有收到任何警報
  • 簡單地丟棄警報
  • 還有什麼?

您需要將監控門檻值調整為對您的特定環境有意義的值。

例如,在計算節點上,我們希望 CPU 使用率為 100%,因此這不是警報的可用門檻值。但是,如果平均負載永遠大於核心數或高 I/O 等待時間,則可能表明存在問題,因此請在這種情況下觀察這些值並相應地設置警報。

除此之外:如果您不使用某個值作為警告門檻值,則無需對其進行監控,但如果需要,您仍可以這樣做以保留使用情況統計資訊。再次:取決於您的環境。

哦,永遠不要有你丟棄的警報。這會導致警報疲勞,並且在某些時候,您可能會忽略重要警報,因為它會淹沒在所有噪音中。如果您不會對警報採取行動,請將其刪除。

引用自:https://serverfault.com/questions/925435