Nagios

Nagios3“127的返回碼越界”

  • October 25, 2017

當我突然添加一些額外的設備(已經超過 12000 個)時,無需對 nagios3 配置或作業系統(debian)文件系統進行任何更改

[1508925621] Warning: Return code of 127 for check of service 'PING' on host 'SOME-HOST.CISCO' was out of bounds. Make sure the plugin you're trying to run actually exists.
[1508925621] SERVICE ALERT: SOME-HOST.CISCO;PING;CRITICAL;HARD;3;(Return code of 127 is out of bounds - plugin may be missing)

所有的二進製文件都是可讀/可執行的,自安裝以來都沒有改變。

它發生在該類型的所有主機上,請記住,這是一個多年來不間斷工作的設置,我唯一能想到的是在執行檢查時會遇到某種作業系統限制,因為這是唯一改變的事情,更多主機。我已經有max_concurrent_checks=1500很長時間了。(它是一個 16 核 24GB RAM 物理伺服器)

除了我執行的並發檢查

check_result_reaper_frequency=25 max_check_result_reaper_time=20

大型主機組配置如下:

define host{
       use                     generic-cisco
       host_name               SOME_HOST.CISCO
       alias                   SOME_HOST.CISCO
       address                 xxx.xxx.xxx.xxx
       check_command   check-host-alive
       hostgroups              cisco_devices
       }

define service{
       use                     generic-service
       host_name               SOME_HOST.CISCO
       service_description     PING
       check_command           check_ping!200.0,20%!600.0,60%
       normal_check_interval   10
       retry_check_interval    5
       }

讓它恢復到工作狀態的唯一方法是關閉我添加的一些最近的主機,然後停止並啟動,希望它執行良好。有什麼建議麼?

修復它的是,儘管我有許多其他性能建議,但我沒有禁用enable_environment_macros 現在性能沒有下降。顯然問題是作業系統正在努力使這些環境變數在這麼多的主機上可用。通過這裡找到

我喜歡好的 nagios facepalm。

引用自:https://serverfault.com/questions/880179