Nagios
Nagios3“127的返回碼越界”
當我突然添加一些額外的設備(已經超過 12000 個)時,無需對 nagios3 配置或作業系統(debian)文件系統進行任何更改
[1508925621] Warning: Return code of 127 for check of service 'PING' on host 'SOME-HOST.CISCO' was out of bounds. Make sure the plugin you're trying to run actually exists. [1508925621] SERVICE ALERT: SOME-HOST.CISCO;PING;CRITICAL;HARD;3;(Return code of 127 is out of bounds - plugin may be missing)
所有的二進製文件都是可讀/可執行的,自安裝以來都沒有改變。
它發生在該類型的所有主機上,請記住,這是一個多年來不間斷工作的設置,我唯一能想到的是在執行檢查時會遇到某種作業系統限制,因為這是唯一改變的事情,更多主機。我已經有
max_concurrent_checks=1500
很長時間了。(它是一個 16 核 24GB RAM 物理伺服器)除了我執行的並發檢查
check_result_reaper_frequency=25
max_check_result_reaper_time=20
大型主機組配置如下:
define host{ use generic-cisco host_name SOME_HOST.CISCO alias SOME_HOST.CISCO address xxx.xxx.xxx.xxx check_command check-host-alive hostgroups cisco_devices } define service{ use generic-service host_name SOME_HOST.CISCO service_description PING check_command check_ping!200.0,20%!600.0,60% normal_check_interval 10 retry_check_interval 5 }
讓它恢復到工作狀態的唯一方法是關閉我添加的一些最近的主機,然後停止並啟動,希望它執行良好。有什麼建議麼?
修復它的是,儘管我有許多其他性能建議,但我沒有禁用
enable_environment_macros
現在性能沒有下降。顯然問題是作業系統正在努力使這些環境變數在這麼多的主機上可用。通過這裡找到我喜歡好的 nagios facepalm。