Monitoring

Munin 對 COUNTER 和 DERIVE 數據的限制

  • June 24, 2019

對於 COUNTER 和 DERIVE 類型的 Munin 外掛,我應該使用哪些值${name}.warning${name}.critical值?

這取決於您正在測量的數據(而不是真正取決於數據類型)。

COUNTER 是絕對值,因此您只需指定應該存在的最小值和最大值。一個常見的例子是目前登錄到系統的使用者數。(通常)不讓任何人登錄是可以的,因此沒有最低門檻值。在伺服器上,您通常不會有太多同時活動的登錄,因此如果有五個活動登錄,您可以發出警告,如果有十個或更多,則發出嚴重警報。看起來像這樣:

users.warning :5
users.critical :10

DERIVE 欄位是變化率值,因此您只需考慮要查看的最小和最大變化率。假設您正在監視以瓦特為單位的電功率(這是一個 DERIVE 欄位,因為系統會報告自上電以來消耗的焦耳總數,並且您從中得出瓦特數)。如果系統通常消耗 80 瓦,您可以將門檻值設置為 75 和 100 瓦以發出警告,將門檻值設置為 70 和 130 瓦以表示嚴重狀態。(如果功耗太低,則可能是系統組件中的一個損壞,因為大多數電腦的正常工作電流都有一個下限。另一方面,“太高”的瓦數將取決於更多的外部因素,例如您的電力基礎設施的容量。)看起來像這樣:

power.warning: 75:100
power.critical: 70:130

我希望我已經用我的範例說明了限制設置很大程度上取決於您正在測量的確切內容,並且沒有一般的方式可以說“一個 DERIVE 數據源應該具有 X:Y 的警告門檻值”。

引用自:https://serverfault.com/questions/534143