Monitoring
check_load 使用什麼警告和臨界值?
現在我正在使用這些值:
# y = c * p / 100 # y: nagios value # c: number of cores # p: wanted load procent # 4 cores # time 5 minutes 10 minutes 15 minutes # warning: 90% 70% 50% # critical: 100% 80% 60% command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4
但是這些值幾乎是隨機選擇的。
有人有一些測試值嗎?
Linux 載入其實很簡單。每個負載平均數是所有核心平均負載的總和。IE。
1 min load avg = load_core_1 + load_core_2 + ... + load_core_n 5 min load avg = load_core_1 + load_core_2 + ... + load_core_n 15 min load avg = load_core_1 + load_core_2 + ... + load_core_n
哪裡
0 < avg load < infinity
。因此,如果 4 核伺服器上的負載為 1,則意味著每個核心使用 25% 或一個核心 100% 處於負載下。負載為 4 意味著所有 4 個核心都處於 100% 負載之下。> 4 的負載意味著伺服器需要更多核心。
check_load
現在有-r, --percpu Divide the load averages by the number of CPUs (when possible)
這意味著在使用時,您可以將您的伺服器視為只有一個核心,因此直接寫入百分比分數而無需考慮核心數量。隨著
-r
警告和臨界間隔變為0 <= load avg <= 1
。IE。您不必在伺服器之間修改警告和臨界值。OP 有 5,10,15 的間隔。那是錯的。它是 1,5,15。