Linux

Nagios 4.4.1 在大約 1 週後緩慢爬行,CPU 使用率經常達到 100%

  • August 17, 2018

我們正在 Ubuntu 16 伺服器上執行一個新的 Nagios Core 伺服器。一切都執行良好,直到今天突然間,網站慢得像爬行一樣。查看 top 命令結果,我們看到 nagios 或 *.cgi 程序(Web UI)的使用率一致為 99-100%。沒有改變。我們還看到輪詢延遲顯著增加。我們之前遇到過一次,並決定刪除安裝,建構一個新的編譯並部署為新的。那是幾週前的事了,現在我們又回到了同樣的事情上。還有其他人遇到這個有修復的嗎?謝謝。

top - 11:33:30 up 7 days, 22:38,  1 user,  load average: 2.00, 1.91, 1.41
Tasks: 161 total,   2 running, 154 sleeping,   0 stopped,   5 zombie
%Cpu(s): 31.1 us,  3.3 sy,  0.0 ni, 63.3 id,  2.2 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem : 12174388 total,  7690680 free,  1430508 used,  3053200 buff/cache
KiB Swap:  4067324 total,  4067324 free,        0 used. 10267768 avail Mem

 PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
27230 nagios    20   0  782008 767708   2752 D  87.7  6.3 189:32.12 nagios
16175 www-data  20   0  781988 136336  68412 R  48.5  1.1   0:01.46 status.cgi
16174 sysadmin  20   0   41776   3836   3248 R   0.3  0.0   0:00.01 top
31422 www-data  20   0  296772  11440   3424 S   0.3  0.1   0:00.15 apache2


top - 11:33:33 up 7 days, 22:38,  1 user,  load average: 2.00, 1.91, 1.41
Tasks: 161 total,   2 running, 154 sleeping,   0 stopped,   5 zombie
%Cpu(s): 24.9 us,  0.8 sy,  0.0 ni, 28.4 id, 45.9 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem : 12174388 total,  7550296 free,  1570912 used,  3053180 buff/cache
KiB Swap:  4067324 total,  4067324 free,        0 used. 10127412 avail Mem

 PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
16175 www-data  20   0  922568 413956 205436 R 100.0  3.4   0:04.48 status.cgi
27230 nagios    20   0  782008 767708   2752 D   2.0  6.3 189:32.18 nagios
 323 root      20   0       0      0      0 D   1.0  0.0   0:24.04 jbd2/dm-0-8
   1 root      20   0   37792   5980   4144 S   0.0  0.0   0:10.31 systemd

在此處輸入圖像描述

我最終通過在 Nagios 網站上與社區合作部分解決了這個問題。這是解決方案:

  1. 根據他們的建議,從 Githib 下載、編譯和安裝 Nagios 的工作版本。Nagios (4.4.1) 版本中存在一個錯誤,該錯誤會導致主機/服務保持軟狀態,從而導致更頻繁地進行重新檢查。

維護分支:https ://github.com/NagiosEnterprises/na … tree/maint

  1. 重命名retention.dat 和status.dat 文件也是必要的,因為它們的文件大小分別超過了8GB。大概是這些文件的解析導致了所有的延遲。

從那時起,它已經完美執行了幾個星期,性能沒有下降。我希望這對其他人有幫助。

引用自:https://serverfault.com/questions/922751