Centos

監控生產伺服器

  • June 22, 2019

我們有 3 台專用伺服器,使用 openVZ 分成幾個 VPS。我們正在使用 munin 來監控生產站點的 VPS,並在某個 VPS 上進行監控,以確保它在失敗時重新啟動服務。

問題是我們需要一個更好的方法來監控我們所有的伺服器,因為我們有多達 14 個 VPS,我們希望有一個中心樞紐,我們不僅可以看到 munin 收集的數據,還可以看到更多額外的統計數據關於我們服務的網路和性能。

我們的一些要求:

  • 失敗的 SMS 通知(設置某些自定義驗證的能力)

  • apache error_log 和其他一些日誌分析器。

  • 必須是中央的(意味著一台伺服器和多個收集數據的節點)。

  • 不需要易於安裝但易於維護。

  • 需要自由

我被指向nagios和splunk,你怎麼看?謝謝,

我有一個類似的設置,除了 Xen 到位。我對以下組合感到非常滿意:

  • Nagios用於警報(使用 PNP 進行一些精簡圖形,使用 Nagviz 進行服務狀態儀表板)

  • 用於系統歷史圖形的Ganglia

  • OSSEC作為 HIDS,同樣重要的是作為集中日誌記錄的收集器

    • 旁注:有一個用於 OSSEC 的 Splunk 外掛很好地集成了這兩個工具**,**不過我正在等待他們將其移植到 Splunk v4。
  • Splunk最後,一旦遷移了一些 Splunk 外掛,我們計劃使用 Splunk 對日誌進行一些預過濾(以避免超出免費版本上限)

我希望分享我們的監控設置會對您有所幫助:-)

以下是一些有用的連結:

http://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-1/index.html

https://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-2/

http://www.ossec.net/main/splunk-ossec-integration

更新:

我忘了提到我們也使用 Matt Simmons Nagios 配置佈局,在這裡找到http://www.standalone-sysadmin.com/blog/2009/07/nagios-config/

這種佈局使我們的 Nagios 配置更加健全並且更易於維護(感謝 Matt!)

引用自:https://serverfault.com/questions/66757