Amazon-Ec2
EC2 實例的停機時間
最近我在 EC2 實例上遇到了問題。在那裡執行的站點在 2 小時內不可用:
過去一周的 CPU 使用率:
其餘的都在它發生的時候:
那個時期的
systemd
雜誌。我在那裡能看到什麼?在 20:31 左右,事情似乎變得緩慢:
計劃在 20:30 的每分鐘作業的作業執行延遲到下一分鐘的 20:31。跳過作業執行。
作業 (
cronyd
) 無法啟動。Jan 12 21:31:29 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: Forward time jump detected! Jan 12 21:33:21 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: Can't synchronise: no selectable sources
台詞,通常是連在一起的
dhclient
,但在那個時期是這樣的:Jan 12 20:46:21 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPREQUEST on eth0 to 172.xx.x.xx port 67 (xid=0x7cb0e02d) Jan 12 20:46:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPACK from 172.xx.x.xx (xid=0x7cb0e02d) Jan 12 21:06:23 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: bound to 172.yy.y.yy -- renewal in 354 seconds.
還:
Jan 12 21:47:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: bound to 172.yy.y.yy -- renewal in -554 seconds.
看起來在 21:47 一切恢復正常。
在那裡執行的
docker
容器重新啟動。我記得他們的日誌開始於接近晚上 10 點,可能是在 21:47。
sysstat
日誌()/var/log/sa/sar12
:07:00:01 PM all 3.77 0.00 0.53 0.00 0.53 0.00 0.11 0.00 0.00 95.05 07:00:01 PM 0 4.22 0.00 0.54 0.01 0.45 0.00 0.11 0.00 0.00 94.68 07:00:01 PM 1 3.33 0.00 0.53 0.00 0.61 0.00 0.10 0.00 0.00 95.43 07:10:01 PM all 3.47 0.00 0.52 0.00 0.54 0.00 0.13 0.00 0.00 95.34 07:10:01 PM 0 4.01 0.00 0.53 0.00 0.48 0.00 0.10 0.00 0.00 94.88 07:10:01 PM 1 2.93 0.00 0.52 0.01 0.60 0.00 0.15 0.00 0.00 95.80 07:20:01 PM all 1.89 0.00 0.47 0.00 0.46 0.00 0.10 0.00 0.00 97.08 07:20:01 PM 0 1.54 0.00 0.46 0.00 0.39 0.00 0.10 0.00 0.00 97.50 07:20:01 PM 1 2.24 0.00 0.48 0.00 0.53 0.00 0.10 0.00 0.00 96.65 07:30:01 PM all 1.37 0.00 0.47 0.00 0.42 0.00 0.09 0.00 0.00 97.65 07:30:01 PM 0 1.55 0.00 0.46 0.00 0.36 0.00 0.08 0.00 0.00 97.54 07:30:01 PM 1 1.18 0.00 0.48 0.00 0.47 0.00 0.10 0.00 0.00 97.77 07:40:01 PM all 1.32 0.00 0.47 0.00 0.41 0.00 0.10 0.00 0.00 97.71 07:40:01 PM 0 1.46 0.00 0.46 0.00 0.33 0.00 0.09 0.00 0.00 97.66 07:40:01 PM 1 1.18 0.00 0.47 0.00 0.48 0.00 0.10 0.00 0.00 97.77 07:50:01 PM all 1.36 0.00 0.48 0.00 0.41 0.00 0.10 0.00 0.00 97.65 07:50:01 PM 0 1.14 0.00 0.45 0.00 0.33 0.00 0.11 0.00 0.00 97.96 07:50:01 PM 1 1.58 0.00 0.50 0.00 0.50 0.00 0.09 0.00 0.00 97.33 08:00:01 PM all 2.17 0.00 0.52 0.01 0.52 0.00 0.12 0.00 0.00 96.66 08:00:01 PM 0 2.26 0.00 0.49 0.01 0.45 0.00 0.13 0.00 0.00 96.67 08:00:01 PM 1 2.08 0.00 0.55 0.01 0.60 0.00 0.12 0.00 0.00 96.65 08:10:01 PM all 3.47 1.35 2.41 0.08 0.58 0.00 0.15 0.00 0.00 91.96 08:10:01 PM 0 3.28 1.11 2.38 0.07 0.50 0.00 0.15 0.00 0.00 92.51 08:10:01 PM 1 3.66 1.58 2.45 0.09 0.66 0.00 0.15 0.00 0.00 91.40 08:10:01 PM CPU %usr %nice %sys %iowait %steal %irq %soft %guest %gnice %idle 08:20:01 PM all 1.73 0.00 0.54 0.07 0.48 0.00 0.10 0.00 0.00 97.07 08:20:01 PM 0 1.94 0.00 0.58 0.07 0.40 0.00 0.10 0.00 0.00 96.90 08:20:01 PM 1 1.52 0.00 0.51 0.08 0.55 0.00 0.11 0.00 0.00 97.23 09:50:02 PM all 2.11 0.11 50.63 43.63 0.09 0.00 0.02 0.00 0.00 3.41 09:50:02 PM 0 3.34 0.09 15.85 77.19 0.07 0.00 0.02 0.00 0.00 3.45 09:50:02 PM 1 0.93 0.12 83.90 11.54 0.11 0.00 0.02 0.00 0.00 3.37 10:00:01 PM all 2.11 0.00 0.43 2.61 0.35 0.00 0.07 0.00 0.00 94.42 10:00:01 PM 0 1.87 0.00 0.45 2.73 0.25 0.00 0.07 0.00 0.00 94.63 10:00:01 PM 1 2.36 0.00 0.42 2.50 0.45 0.00 0.07 0.00 0.00 94.20 10:10:01 PM all 0.80 0.00 0.33 0.00 0.29 0.00 0.06 0.00 0.00 98.52 10:10:01 PM 0 0.82 0.00 0.31 0.00 0.20 0.00 0.07 0.00 0.00 98.59 10:10:01 PM 1 0.77 0.00 0.35 0.00 0.37 0.00 0.06 0.00 0.00 98.45 10:20:01 PM all 0.85 0.00 0.35 0.00 0.29 0.00 0.07 0.00 0.00 98.44 10:20:01 PM 0 0.85 0.00 0.34 0.00 0.21 0.00 0.07 0.00 0.00 98.53 10:20:01 PM 1 0.86 0.00 0.36 0.00 0.37 0.00 0.06 0.00 0.00 98.35 10:30:01 PM all 1.41 0.00 0.38 0.00 0.33 0.00 0.08 0.00 0.00 97.79 10:30:01 PM 0 1.13 0.00 0.36 0.00 0.25 0.00 0.07 0.00 0.00 98.18 10:30:01 PM 1 1.69 0.00 0.40 0.00 0.42 0.00 0.09 0.00 0.00 97.40 10:40:01 PM all 0.98 0.00 0.35 0.00 0.29 0.00 0.06 0.00 0.00 98.32 10:40:01 PM 0 0.70 0.00 0.33 0.00 0.22 0.00 0.06 0.00 0.00 98.69 10:40:01 PM 1 1.25 0.00 0.36 0.00 0.35 0.00 0.07 0.00 0.00 97.96 10:50:01 PM all 0.65 0.00 0.34 0.00 0.28 0.00 0.06 0.00 0.00 98.68 10:50:01 PM 0 0.80 0.00 0.34 0.00 0.20 0.00 0.05 0.00 0.00 98.61 10:50:01 PM 1 0.50 0.00 0.34 0.00 0.35 0.00 0.06 0.00 0.00 98.75
8:20 和 9:50 之間有一個間隙,只有在 9:50 我們才能看到負載(空閒 3%)。
這裡可能相關的是,在 1 月 4 日,我啟用了時間同步 (
timedatectl set-ntp true
),因為有 15 分鐘的偏移量:系統時鐘錯誤 -910.996745 秒
這是一個
t3a.medium
例子。而且我相信那時信用規範是無限的。至少那是我第二天看到的。無論如何,信用餘額並沒有達到最低點。你能解釋一下嗎?我可以檢查什麼?
公平地說,我不能確定它不是由網站或其組件之一引起的,但我沒有遇到過此類問題。
UPD該問題可能是由其中一個容器中的記憶體洩漏引起的。至少在讓它
nokogiri
在不同的程序中執行任務之後,記憶體停止增長,到目前為止還沒有類似的事件發生。
由於執行 EC2 實例的物理主機存在一些問題,您的實例似乎已暫停/暫停。請記住,EC2 實例級別的 SLA 是 99.5%。您可能希望啟用對您的實例的狀態檢查和自動恢復的監控。