使用 Open Monitoring Distro (OMD) 自動監控新的雲伺服器?
我已經花了一些時間來使用 Nagios、Check_mk 和其他一些作為 OMD 包的一部分安裝的非常有用的工具。
一旦手動安裝了 check_mk 代理,WATO 對於通過 GUI 管理我們所有基於 Windows 和 Linux 的靜態伺服器特別有用。
我想問一下自動化整個監控過程的最佳方法是什麼?或者即使可以做到?
我們將使用廚師食譜定期提供新伺服器並經常殺死其他伺服器。如果我們要繼續使用 Nagios / Check_mk,那麼管理人員的工作量必須最少,以跟踪和監控我們的基礎設施。
非常感謝您的幫助。史蒂夫
高層,有兩種方式:
- 讓廚師編寫有效的 Check_MK 配置文件(現在已經完成),並讓它通過 WATO 自動化觸發庫存+重新載入。這可能更透明。
- 讓 Check_MK 從您的 CMDB 中讀取主機(如果您執行專業設置,將會有一個……)或從 Chef 配置中讀取主機。這是可行的,Check_MK 配置基本上允許您使用 Python 允許的任何內容。因此,您可以從 LDAP、某些 API、Chef 配置或平面文件中讀取數據。對我來說,這是更簡潔的方法,因為它具有更直接的“數據”介面。
我認為從長遠來看,第一種方式對你來說會更好,因為它更面向 WATO。我仍然會選擇第二個並掛鉤到 EC2 vm 列表等。
混合是可能的,即一些守護程序監聽諸如VM創建之類的事件並將配置寫入WATO只讀文件夾。
注意:不對任何此類數據源進行完整性檢查是非常愚蠢的。僅僅因為某些基礎架構即程式碼瘋子添加了一個(基礎架構)錯誤並從 Chef 中刪除了 100% 的虛擬機,因此不應立即將它們從監控中刪除。
確保它保持一點外帶。
可以在此處找到有關動態 Check_MK 介面的 2010 年文件: https ://geni-orca.renci.org/trac/wiki/OMDeventhandlers
它確實很舊,但很好地闡述了基本思想。
我已經為 config-mgmt —to —- Check_MK 介面做了第一個概念證明。沒有我想要的那麼好,但只是受限於我編寫 Python 的速度/技能。:)
我正在使用它。現在非雲 70 伺服器: https ://bitbucket.org/darkfader/nagios/src/461992c2c5452807a37838ca99fd92977fcf96e1/check_mk/ino2cmk/ino2cmk.py?at=default