監控生產伺服器
我們有 3 台專用伺服器,使用 openVZ 分成幾個 VPS。我們正在使用 munin 來監控生產站點的 VPS,並在某個 VPS 上進行監控,以確保它在失敗時重新啟動服務。
問題是我們需要一個更好的方法來監控我們所有的伺服器,因為我們有多達 14 個 VPS,我們希望有一個中心樞紐,我們不僅可以看到 munin 收集的數據,還可以看到更多額外的統計數據關於我們服務的網路和性能。
我們的一些要求:
失敗的 SMS 通知(設置某些自定義驗證的能力)
apache error_log 和其他一些日誌分析器。
必須是中央的(意味著一台伺服器和多個收集數據的節點)。
不需要易於安裝但易於維護。
需要自由
我被指向nagios和splunk,你怎麼看?謝謝,
我有一個類似的設置,除了 Xen 到位。我對以下組合感到非常滿意:
Nagios用於警報(使用 PNP 進行一些精簡圖形,使用 Nagviz 進行服務狀態儀表板)
用於系統歷史圖形的Ganglia
OSSEC作為 HIDS,同樣重要的是作為集中日誌記錄的收集器
- 旁注:有一個用於 OSSEC 的 Splunk 外掛很好地集成了這兩個工具**,**不過我正在等待他們將其移植到 Splunk v4。
Splunk最後,一旦遷移了一些 Splunk 外掛,我們計劃使用 Splunk 對日誌進行一些預過濾(以避免超出免費版本上限)
我希望分享我們的監控設置會對您有所幫助:-)
以下是一些有用的連結:
http://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-1/index.html
https://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-2/
http://www.ossec.net/main/splunk-ossec-integration
更新:
我忘了提到我們也使用 Matt Simmons Nagios 配置佈局,在這裡找到http://www.standalone-sysadmin.com/blog/2009/07/nagios-config/
這種佈局使我們的 Nagios 配置更加健全並且更易於維護(感謝 Matt!)