Monitoring

check_load 使用什麼警告和臨界值?

  • November 19, 2018

現在我正在使用這些值:

# y = c * p / 100
# y: nagios value
# c: number of cores
# p: wanted load procent

# 4 cores
# time        5 minutes    10 minutes     15 minutes
# warning:    90%          70%            50%
# critical:   100%         80%            60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4

但是這些值幾乎是隨機選擇的。

有人有一些測試值嗎?

Linux 載入其實很簡單。每個負載平均數是所有核心平均負載的總和。IE。

1 min load avg = load_core_1 + load_core_2 + ... + load_core_n
5 min load avg = load_core_1 + load_core_2 + ... + load_core_n
15 min load avg = load_core_1 + load_core_2 + ... + load_core_n

哪裡0 < avg load < infinity

因此,如果 4 核伺服器上的負載為 1,則意味著每個核心使用 25% 或一個核心 100% 處於負載下。負載為 4 意味著所有 4 個核心都處於 100% 負載之下。> 4 的負載意味著伺服器需要更多核心。

check_load現在有

-r, --percpu
   Divide the load averages by the number of CPUs (when possible)

這意味著在使用時,您可以將您的伺服器視為只有一個核心,因此直接寫入百分比分數而無需考慮核心數量。隨著-r警告和臨界間隔變為0 <= load avg <= 1。IE。您不必在伺服器之間修改警告和臨界值。

OP 有 5,10,15 的間隔。那是錯的。它是 1,5,15。

引用自:https://serverfault.com/questions/209566