Linux
Nagios 4.4.1 在大約 1 週後緩慢爬行,CPU 使用率經常達到 100%
我們正在 Ubuntu 16 伺服器上執行一個新的 Nagios Core 伺服器。一切都執行良好,直到今天突然間,網站慢得像爬行一樣。查看 top 命令結果,我們看到 nagios 或 *.cgi 程序(Web UI)的使用率一致為 99-100%。沒有改變。我們還看到輪詢延遲顯著增加。我們之前遇到過一次,並決定刪除安裝,建構一個新的編譯並部署為新的。那是幾週前的事了,現在我們又回到了同樣的事情上。還有其他人遇到這個有修復的嗎?謝謝。
top - 11:33:30 up 7 days, 22:38, 1 user, load average: 2.00, 1.91, 1.41 Tasks: 161 total, 2 running, 154 sleeping, 0 stopped, 5 zombie %Cpu(s): 31.1 us, 3.3 sy, 0.0 ni, 63.3 id, 2.2 wa, 0.0 hi, 0.0 si, 0.0 st KiB Mem : 12174388 total, 7690680 free, 1430508 used, 3053200 buff/cache KiB Swap: 4067324 total, 4067324 free, 0 used. 10267768 avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 27230 nagios 20 0 782008 767708 2752 D 87.7 6.3 189:32.12 nagios 16175 www-data 20 0 781988 136336 68412 R 48.5 1.1 0:01.46 status.cgi 16174 sysadmin 20 0 41776 3836 3248 R 0.3 0.0 0:00.01 top 31422 www-data 20 0 296772 11440 3424 S 0.3 0.1 0:00.15 apache2 top - 11:33:33 up 7 days, 22:38, 1 user, load average: 2.00, 1.91, 1.41 Tasks: 161 total, 2 running, 154 sleeping, 0 stopped, 5 zombie %Cpu(s): 24.9 us, 0.8 sy, 0.0 ni, 28.4 id, 45.9 wa, 0.0 hi, 0.0 si, 0.0 st KiB Mem : 12174388 total, 7550296 free, 1570912 used, 3053180 buff/cache KiB Swap: 4067324 total, 4067324 free, 0 used. 10127412 avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 16175 www-data 20 0 922568 413956 205436 R 100.0 3.4 0:04.48 status.cgi 27230 nagios 20 0 782008 767708 2752 D 2.0 6.3 189:32.18 nagios 323 root 20 0 0 0 0 D 1.0 0.0 0:24.04 jbd2/dm-0-8 1 root 20 0 37792 5980 4144 S 0.0 0.0 0:10.31 systemd
我最終通過在 Nagios 網站上與社區合作部分解決了這個問題。這是解決方案:
- 根據他們的建議,從 Githib 下載、編譯和安裝 Nagios 的工作版本。Nagios (4.4.1) 版本中存在一個錯誤,該錯誤會導致主機/服務保持軟狀態,從而導致更頻繁地進行重新檢查。
維護分支:https ://github.com/NagiosEnterprises/na … tree/maint
- 重命名retention.dat 和status.dat 文件也是必要的,因為它們的文件大小分別超過了8GB。大概是這些文件的解析導致了所有的延遲。
從那時起,它已經完美執行了幾個星期,性能沒有下降。我希望這對其他人有幫助。