Linux

我應該在我的 Linux 伺服器上監控哪些指標?

  • November 6, 2011

我的任務是設置監控 300 台伺服器,做不同的事情。我一直在研究各種工具,例如 Nagios、Munin 和其他工具 - 所以我首先對如何實現監控有了一個很好的想法。

我想知道的是,在我對伺服器不太了解的情況下,通常監控哪些指標作為一個好的預設值?而且,就警報而言,什麼是“正常的預設值”?

我的計劃是部署一個以健全的預設值作為開始的監控方案,同時我會繪製出不同系統的角色——我預計這需要一些時間。

這個問題也可以用不同的方式問:

如果你正在設計一個監控設備——它的預設 Linux 監控模板應該包含什麼?

指示問題的常用指標包括 CPU 使用率、記憶體使用率、平均負載和磁碟使用率。對於郵件伺服器來說,郵件隊列的大小是一個重要的指標。對於 Web 伺服器,繁忙的伺服器數量是一個重要的衡量標準。過多的網路吞吐量也會導致問題。如果您有需要檢查時間的程序,NTP 可以成為保持時鐘同步的重要工具。

我使用的標準警告級別包括(警告、嚴重)。您可能需要根據許多因素調整您的值。較高的值會減少警報的數量,而較低的值可以讓您有更多時間對正在出現的問題做出反應。這可能是模板的合適起點。

  • 持續的 CPU 使用率(80%、100%)。排除 niced 程序的時間。
  • 每個 CPU 的平均負載 (2, 5)。
  • 每個分區的磁碟使用率(80%、90%)。
  • 郵件隊列 (10, 50)。在非郵件伺服器上使用較低的值。
  • 繁忙的 Web 伺服器 (10, 25)。
  • 網路吞吐量(80%、100%)。網路備份和其他此類過程可能會超出價值。如果它們可用,我會使用節流設置。
  • 以秒為單位的 NTP 偏移量 ( 0.2, 1)。

穆寧在收集這些統計數據和其他數據方面做得很好。它還具有在超過門檻值時觸發警報的能力。它的警告能力不如Nagios。它對歷史數據的收集和顯示使其成為能夠查看目前值是否與過去值有顯著差異的不錯選擇。它易於設置並且可以在不產生警告的情況下執行。主要問題是擷取的數據量以及收集資訊的固定頻率。您可能希望按需生成圖表。Munin 提供了許多我sar在系統出現故障時會使用的統計資訊。它的概述頁面對於辨識可能的問題很有用。

Nagios 非常擅長警報,但歷來不擅長以適合與目前值比較的方式收集歷史數據。看來這種情況正在發生變化,新版本在收集這些數據方面要好得多。在出現問題時生成警告以及安排不生成警報的中斷是一個不錯的選擇。Nagios 非常擅長在服務中斷時發出警報。這尤其適用於關鍵伺服器和服務。

引用自:https://serverfault.com/questions/328131