Amazon-Ec2

EC2 實例的停機時間

  • February 7, 2022

最近我在 EC2 實例上遇到了問題。在那裡執行的站點在 2 小時內不可用:

過去一周的 CPU 使用率:

其餘的都在它發生的時候:

那個時期的systemd雜誌。

我在那裡能看到什麼?在 20:31 左右,事情似乎變得緩慢:

計劃在 20:30 的每分鐘作業的作業執行延遲到下一分鐘的 20:31。跳過作業執行。

作業 ( cronyd) 無法啟動。

Jan 12 21:31:29 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: Forward time jump detected!
Jan 12 21:33:21 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: Can't synchronise: no selectable sources

台詞,通常是連在一起的dhclient,但在那個時期是這樣的:

Jan 12 20:46:21 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPREQUEST on eth0 to 172.xx.x.xx port 67 (xid=0x7cb0e02d)
Jan 12 20:46:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPACK from 172.xx.x.xx (xid=0x7cb0e02d)
Jan 12 21:06:23 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: bound to 172.yy.y.yy -- renewal in 354 seconds.

還:

Jan 12 21:47:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: bound to 172.yy.y.yy -- renewal in -554 seconds.

看起來在 21:47 一切恢復正常。

在那裡執行的docker容器重新啟動。我記得他們的日誌開始於接近晚上 10 點,可能是在 21:47。

sysstat日誌()/var/log/sa/sar12

07:00:01 PM     all      3.77      0.00      0.53      0.00      0.53      0.00      0.11      0.00      0.00     95.05
07:00:01 PM       0      4.22      0.00      0.54      0.01      0.45      0.00      0.11      0.00      0.00     94.68
07:00:01 PM       1      3.33      0.00      0.53      0.00      0.61      0.00      0.10      0.00      0.00     95.43
07:10:01 PM     all      3.47      0.00      0.52      0.00      0.54      0.00      0.13      0.00      0.00     95.34
07:10:01 PM       0      4.01      0.00      0.53      0.00      0.48      0.00      0.10      0.00      0.00     94.88
07:10:01 PM       1      2.93      0.00      0.52      0.01      0.60      0.00      0.15      0.00      0.00     95.80
07:20:01 PM     all      1.89      0.00      0.47      0.00      0.46      0.00      0.10      0.00      0.00     97.08
07:20:01 PM       0      1.54      0.00      0.46      0.00      0.39      0.00      0.10      0.00      0.00     97.50
07:20:01 PM       1      2.24      0.00      0.48      0.00      0.53      0.00      0.10      0.00      0.00     96.65
07:30:01 PM     all      1.37      0.00      0.47      0.00      0.42      0.00      0.09      0.00      0.00     97.65
07:30:01 PM       0      1.55      0.00      0.46      0.00      0.36      0.00      0.08      0.00      0.00     97.54
07:30:01 PM       1      1.18      0.00      0.48      0.00      0.47      0.00      0.10      0.00      0.00     97.77
07:40:01 PM     all      1.32      0.00      0.47      0.00      0.41      0.00      0.10      0.00      0.00     97.71
07:40:01 PM       0      1.46      0.00      0.46      0.00      0.33      0.00      0.09      0.00      0.00     97.66
07:40:01 PM       1      1.18      0.00      0.47      0.00      0.48      0.00      0.10      0.00      0.00     97.77
07:50:01 PM     all      1.36      0.00      0.48      0.00      0.41      0.00      0.10      0.00      0.00     97.65
07:50:01 PM       0      1.14      0.00      0.45      0.00      0.33      0.00      0.11      0.00      0.00     97.96
07:50:01 PM       1      1.58      0.00      0.50      0.00      0.50      0.00      0.09      0.00      0.00     97.33
08:00:01 PM     all      2.17      0.00      0.52      0.01      0.52      0.00      0.12      0.00      0.00     96.66
08:00:01 PM       0      2.26      0.00      0.49      0.01      0.45      0.00      0.13      0.00      0.00     96.67
08:00:01 PM       1      2.08      0.00      0.55      0.01      0.60      0.00      0.12      0.00      0.00     96.65
08:10:01 PM     all      3.47      1.35      2.41      0.08      0.58      0.00      0.15      0.00      0.00     91.96
08:10:01 PM       0      3.28      1.11      2.38      0.07      0.50      0.00      0.15      0.00      0.00     92.51
08:10:01 PM       1      3.66      1.58      2.45      0.09      0.66      0.00      0.15      0.00      0.00     91.40

08:10:01 PM     CPU      %usr     %nice      %sys   %iowait    %steal      %irq     %soft    %guest    %gnice     %idle
08:20:01 PM     all      1.73      0.00      0.54      0.07      0.48      0.00      0.10      0.00      0.00     97.07
08:20:01 PM       0      1.94      0.00      0.58      0.07      0.40      0.00      0.10      0.00      0.00     96.90
08:20:01 PM       1      1.52      0.00      0.51      0.08      0.55      0.00      0.11      0.00      0.00     97.23
09:50:02 PM     all      2.11      0.11     50.63     43.63      0.09      0.00      0.02      0.00      0.00      3.41
09:50:02 PM       0      3.34      0.09     15.85     77.19      0.07      0.00      0.02      0.00      0.00      3.45
09:50:02 PM       1      0.93      0.12     83.90     11.54      0.11      0.00      0.02      0.00      0.00      3.37
10:00:01 PM     all      2.11      0.00      0.43      2.61      0.35      0.00      0.07      0.00      0.00     94.42
10:00:01 PM       0      1.87      0.00      0.45      2.73      0.25      0.00      0.07      0.00      0.00     94.63
10:00:01 PM       1      2.36      0.00      0.42      2.50      0.45      0.00      0.07      0.00      0.00     94.20
10:10:01 PM     all      0.80      0.00      0.33      0.00      0.29      0.00      0.06      0.00      0.00     98.52
10:10:01 PM       0      0.82      0.00      0.31      0.00      0.20      0.00      0.07      0.00      0.00     98.59
10:10:01 PM       1      0.77      0.00      0.35      0.00      0.37      0.00      0.06      0.00      0.00     98.45
10:20:01 PM     all      0.85      0.00      0.35      0.00      0.29      0.00      0.07      0.00      0.00     98.44
10:20:01 PM       0      0.85      0.00      0.34      0.00      0.21      0.00      0.07      0.00      0.00     98.53
10:20:01 PM       1      0.86      0.00      0.36      0.00      0.37      0.00      0.06      0.00      0.00     98.35
10:30:01 PM     all      1.41      0.00      0.38      0.00      0.33      0.00      0.08      0.00      0.00     97.79
10:30:01 PM       0      1.13      0.00      0.36      0.00      0.25      0.00      0.07      0.00      0.00     98.18
10:30:01 PM       1      1.69      0.00      0.40      0.00      0.42      0.00      0.09      0.00      0.00     97.40
10:40:01 PM     all      0.98      0.00      0.35      0.00      0.29      0.00      0.06      0.00      0.00     98.32
10:40:01 PM       0      0.70      0.00      0.33      0.00      0.22      0.00      0.06      0.00      0.00     98.69
10:40:01 PM       1      1.25      0.00      0.36      0.00      0.35      0.00      0.07      0.00      0.00     97.96
10:50:01 PM     all      0.65      0.00      0.34      0.00      0.28      0.00      0.06      0.00      0.00     98.68
10:50:01 PM       0      0.80      0.00      0.34      0.00      0.20      0.00      0.05      0.00      0.00     98.61
10:50:01 PM       1      0.50      0.00      0.34      0.00      0.35      0.00      0.06      0.00      0.00     98.75

8:20 和 9:50 之間有一個間隙,只有在 9:50 我們才能看到負載(空閒 3%)。

這裡可能相關的是,在 1 月 4 日,我啟用了時間同步 ( timedatectl set-ntp true),因為有 15 分鐘的偏移量:

系統時鐘錯誤 -910.996745 秒

這是一個t3a.medium例子。而且我相信那時信用規範是無限的。至少那是我第二天看到的。無論如何,信用餘額並沒有達到最低點。

你能解釋一下嗎?我可以檢查什麼?

公平地說,我不能確定它不是由網站或其組件之一引起的,但我沒有遇到過此類問題。

UPD該問題可能是由其中一個容器中的記憶體洩漏引起的。至少在讓它nokogiri在不同的程序中執行任務之後,記憶體停止增長,到目前為止還沒有類似的事件發生。

由於執行 EC2 實例的物理主機存在一些問題,您的實例似乎已暫停/暫停。請記住,EC2 實例級別的 SLA 是 99.5%。您可能希望啟用對您的實例的狀態檢查自動恢復的監控。

引用自:https://serverfault.com/questions/1090498