Linux

確定 Linux 上 Nagios“程序數”警告的原因

  • July 19, 2010

我剛開始從我們的建構伺服器收到 Nagios 警告,指出程序數已超過限制。查看我們的 Munin 圖,我可以看到程序數從 12 月的 280 個穩步增加到目前的 430 個。

我想知道如何確定程序數量增加的原因,以便我可以重新啟動服務或根據需要調整它們的配置。

伺服器詳情:CentOS 5.1,主要執行的是我們在 Tomcat 下執行的 Hudson 建構伺服器,以及一個 Apache httpd 伺服器,它主要只是 Hudson 的代理。我嘗試重新啟動 httpd 和 Tomcat,但程序數保持不變。“top”表示只有一個程序處於活動狀態;其餘的都在睡覺。

定期嘗試此操作,以查看“某些”命名程序的程序計數如何上升和下降。它忽略 PID,只查看超出 cpu 時間的行尾。

ps -ef | perl -a -F'\d+:\d+:\d+ ' -n -e 'print @F[1]' -- | sort | uniq -c | sort -n

這適用於 RHEL 盒子。在獲得啟動程序列表的基線後,您可以將其放入 cron 中。

引用自:https://serverfault.com/questions/161900