Google-Compute-Engine

Google計算引擎 IO 監控

  • September 26, 2019

我有一個在計算引擎 f1-micro 實例上執行的 ubuntu 14.04。由於 IO 讀取的爆發,伺服器會在幾週內掛起一次。

GCE 監視器螢幕截圖

發生這種情況時,我無法使用 SSH 進行連接。

這個伺服器以前每天都會在特定的時間掛掉,我發現是apt的自動更新。

現在自動更新配置為:

$/etc/apt/apt.conf.d# cat 10periodic
APT::Periodic::Update-Package-Lists "1";
APT::Periodic::Download-Upgradeable-Packages "0";
APT::Periodic::AutocleanInterval "1";
$/etc/apt/apt.conf.d# cat 20auto-upgrades
APT::Periodic::Update-Package-Lists "0";
APT::Periodic::Unattended-Upgrade "0";

有什麼方法可以監控和檢測導致 IO 突發的原因,即使 SSH 無法連接?

Cloud Console 為 GCE 實例提供基本的 IO 監控(您已經在螢幕截圖中看到了它)。但是,也可以使用Stackdriver Monitoring Agent提供更高級的監控,這是您機器中的一個程序,用於收集不同的指標並將它們發送到Stackdriver Monitoring

這種方法的另一個優點是,它可以與Stackdriver Alerts一起使用,讓您知道事情何時以特定指標向南。但是,一個缺點可能是代理在您的系統中收集指標的資源成本,特別是考慮到機器大小。

或者,您可以使用Sysstats 套件通過sar(和親戚)使用簡單的 CronJob 收集機器內的指標。

唯一的缺點是,預設情況下,度量資訊保存在同一台機器中,因此它可能更像事後數據而不是預防數據。

最後,沒有說明您的機器上正在執行什麼,但如果可能的話,您不妨考慮另一種機器大小,以使您的工作負載不受資源限制。

引用自:https://serverfault.com/questions/985697