Munin
我需要用更具可擴展性的東西替換 munin
多年來,我在多台伺服器上使用 munin 並取得了巨大的成功,但是有超過 100 個 munin 節點,當客戶端有負載時,處理就會超時。
我對 cron 作業和客戶端程序的數量進行了一些擴展更改,並減少了正在執行的外掛的數量等,但我決定尋找一種具有更高可擴展架構的替代方案。
歡迎任何建議或經驗。我基本上對可用於容量規劃和診斷資源使用情況的伺服器指標感興趣。(我們有用於警報的 nagios)
聽起來你可能有兩個問題
- 在您的監控伺服器上,記錄大量伺服器的指標需要比您的儲存提供更多的隨機 I/O。即使您的所有指標都被寫入磁碟,伺服器也可能過於過載而無法從它們實際生成圖表。
- 在您被監控的客戶端上,收集指標的外掛過於佔用 CPU 和記憶體,並且在客戶端遇到重負載時無法及時完成收集數據。
我過去使用過 Munin,但我目前正在使用collectd。collectd 的作者為解決這些問題付出了很多思考和努力。他們有一個精心設計的系統,用於將數據寫入 RRD 文件,確保您不會失去數據並可以生成最新的圖表。還支持RRDCacheD. 守護程序和官方外掛是用 C 語言編寫的,因此它們使用的記憶體或 CPU 時間很少。在我的客戶端系統上,它每分鐘使用不到 2MB 的 RAM 和大約四分之一秒的 CPU 時間。在我的監控伺服器上,它每分鐘使用 20MB 的 RAM 和三分之二秒的 CPU 時間。請記住,每十秒收集一次我的所有指標並將其發送到我的監控伺服器,而不是像 munin 那樣以分鐘為間隔。