Monitoring
監控伺服器上的可用記憶體和 CPU 使用情況是否有意義?
我正在使用帶有一些主/衛星配置的 Icinga2 監控我的伺服器基礎架構。
在 Linux 和 Windows 主機上,我正在監視預設系統指標,例如 CPU 使用率和可用系統記憶體。在工作節點上,這些值通常可以達到 100%(或 5% 可用 RAM),因此我收到了許多並不真正令人不安的 CRITICAL 警報。
那麼,最好是:
- 只需避免監視可用記憶體和 CPU 使用情況
- 將關鍵警報設置為 0% 的可用記憶體和 100% 的 CPU 使用率
- 繼續監視它們,但沒有收到任何警報
- 簡單地丟棄警報
- 還有什麼?
您需要將監控門檻值調整為對您的特定環境有意義的值。
例如,在計算節點上,我們希望 CPU 使用率為 100%,因此這不是警報的可用門檻值。但是,如果平均負載永遠大於核心數或高 I/O 等待時間,則可能表明存在問題,因此請在這種情況下觀察這些值並相應地設置警報。
除此之外:如果您不使用某個值作為警告門檻值,則無需對其進行監控,但如果需要,您仍可以這樣做以保留使用情況統計資訊。再次:取決於您的環境。
哦,永遠不要有你丟棄的警報。這會導致警報疲勞,並且在某些時候,您可能會忽略重要警報,因為它會淹沒在所有噪音中。如果您不會對警報採取行動,請將其刪除。