Google-Compute-Engine
Google計算引擎 IO 監控
我有一個在計算引擎 f1-micro 實例上執行的 ubuntu 14.04。由於 IO 讀取的爆發,伺服器會在幾週內掛起一次。
發生這種情況時,我無法使用 SSH 進行連接。
這個伺服器以前每天都會在特定的時間掛掉,我發現是apt的自動更新。
現在自動更新配置為:
$/etc/apt/apt.conf.d# cat 10periodic APT::Periodic::Update-Package-Lists "1"; APT::Periodic::Download-Upgradeable-Packages "0"; APT::Periodic::AutocleanInterval "1"; $/etc/apt/apt.conf.d# cat 20auto-upgrades APT::Periodic::Update-Package-Lists "0"; APT::Periodic::Unattended-Upgrade "0";
有什麼方法可以監控和檢測導致 IO 突發的原因,即使 SSH 無法連接?
Cloud Console 為 GCE 實例提供基本的 IO 監控(您已經在螢幕截圖中看到了它)。但是,也可以使用Stackdriver Monitoring Agent提供更高級的監控,這是您機器中的一個程序,用於收集不同的指標並將它們發送到Stackdriver Monitoring。
這種方法的另一個優點是,它可以與Stackdriver Alerts一起使用,讓您知道事情何時以特定指標向南。但是,一個缺點可能是代理在您的系統中收集指標的資源成本,特別是考慮到機器大小。
或者,您可以使用Sysstats 套件通過
sar
(和親戚)使用簡單的 CronJob 收集機器內的指標。唯一的缺點是,預設情況下,度量資訊保存在同一台機器中,因此它可能更像事後數據而不是預防數據。
最後,沒有說明您的機器上正在執行什麼,但如果可能的話,您不妨考慮另一種機器大小,以使您的工作負載不受資源限制。