Ubuntu
理解 Ubuntu 伺服器狀態資訊
我正在嘗試創建一個簡單的 shell 腳本來監視我的伺服器。我計劃設置一個 CRON 作業,使其每 5 或 10 分鐘執行一次。
以下是它的工作原理:
- 執行一些 linux 命令,例如 iostat、mpstat、top 等,並將結果輸出到文本文件
- 通過 CURL 將文本文件發送到將接收文本文件並處理數據的 URL,然後將重要指標發佈到數據庫
我計劃使用這些數據來確定何時需要升級我的伺服器。
但是,我在伺服器監控方面沒有太多經驗,所以我不知道我應該尋找什麼樣的門檻值。例如,當我執行類似的東西時
mpstat -P ALL
,什麼樣的數字應該打擾我?或者iostat
?我只是希望能夠有某種參考點來了解我的伺服器何時處於良好狀態(即合理負載)或處於不良狀態(即過載)並需要升級或負載平衡。
提前致謝。
我會說免費的 Monit將是一個更合適的工具,用於測試您正在尋找的門檻值並提供系統健康狀況的簡單概覽。
開箱即用,您可以設置一些基本檢查。語法非常易於閱讀,因此檢查系統負載、記憶體使用、交換使用、CPU 使用和磁碟空間的各種掛載點並可以發送電子郵件的準系統設置如下所示:
if loadavg (1min) > 6 then alert if loadavg (5min) > 5 then alert if memory usage > 90% then alert if swap usage > 20% then alert if cpu usage (user) > 90% then alert if cpu usage (system) > 75% then alert if cpu usage (wait) > 75% then alert check device root with path / if SPACE usage > 80% then alert check device var with path /var if SPACE usage > 80% then alert check device usr with path /usr if SPACE usage > 80% then alert check device tmp with path /tmp if SPACE usage > 80% then alert
此外,我知道您說您不需要任何圖形工具,但擁有可以跟踪趨勢的東西可能是有意義的。Munin是一個很好的工具。還有很多其他的,但值得考慮。