Nagios
使用 Nagios 事件處理程序使系統恢復正確狀態
我已經閱讀了 Ansible 和 SaltStack 等配置管理/配置工具。這些對我來說聽起來不錯,我打算大量使用兩者中的一個(尚未決定我傾向於 Ansible 的那個)。理想情況下,我想使用兩者中的一個來控制系統中配置和命令執行的所有方面。即:從初始引導、臨時命令,以及當系統範圍的異常發生時。
為此,我似乎可以使用 Nagios 事件處理程序(正確設置時)依次執行配置的 ansible playbook(或 saltstack 等效項)以嘗試使系統恢復正確狀態。
這種設置經常使用嗎?有什麼理由這不是一個好主意嗎?
我之所以問,是因為將所有配置都放在 1 個工具(ansible 或 saltstack)下對我來說似乎合乎邏輯/方便,但是關於使用 Nagios(或類似)和 Ansible(或類似)組合的資訊似乎真的很少/不存在的。
這是一個合理的想法,但您必須非常小心,確保您的自動化操作準確無誤。
您需要絕對確定您遇到的故障狀態可以通過這些自動化操作來解決,以重置它(準確)。
您還需要確保您的操作是完全冪等的,以防萬一出現問題並觸發錯誤的重新配置服務。(精確的)。
總而言之,這不是一個壞主意,但是圍繞狀態波動的問題會最快地抓住你。根據經驗,他們甚至抓住了我,我已經自動重新啟動了某些東西,並且沒有意識到它被卡住了(或正在執行,取決於您的觀點)。