無緣無故升級到 debian 10 後磁碟使用率接近 100%
我們最近將伺服器升級到了 debian 10。設置與 debian9 完全相同,當然還有一些新的軟體包。
我們正在執行預設核心:
$ uname -a Linux kt105 4.19.0-6-amd64 #1 SMP Debian 4.19.67-2+deb10u2 (2019-11-11) x86_64 GNU/Linux
我們在軟體 raid 中使用 2 個 NVME SSD 磁碟,升級到 debian 10 後,我們遇到了高磁碟使用率。請滾動查看最後一列:
# iostat -x 20 5 Linux 4.19.0-6-amd64 (kt105) 01/29/2020 _x86_64_ (48 CPU) avg-cpu: %user %nice %system %iowait %steal %idle 0.07 0.00 0.04 0.00 0.00 99.89 Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util nvme0n1 0.00 5.97 0.03 805.42 0.00 9.37 0.00 61.07 0.30 1.31 1.00 19.16 134.83 166.12 99.26 nvme1n1 3.14 2.91 736.61 70.75 8.41 0.96 72.83 24.80 0.15 0.84 1.00 234.74 24.34 164.20 99.26 md0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 22.39 0.00 0.00 0.00 md1 0.00 0.00 0.07 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 39.29 1.00 0.00 0.00 md2 0.07 2.34 1.89 68.62 0.00 0.00 0.00 0.00 0.00 0.00 0.00 27.00 29.35 0.00 0.00 avg-cpu: %user %nice %system %iowait %steal %idle 0.03 0.00 0.02 0.00 0.00 99.95 Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util nvme0n1 0.00 1.80 0.00 18.95 0.00 0.55 0.00 23.40 0.00 0.03 0.98 0.00 10.53 541.89 97.54 nvme1n1 0.00 1.80 0.00 18.95 0.00 0.55 0.00 23.40 0.00 0.03 0.98 0.00 10.53 541.89 97.54 md0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 md1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 md2 0.00 1.10 0.00 17.20 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 15.64 0.00 0.00 avg-cpu: %user %nice %system %iowait %steal %idle 0.03 0.00 0.02 0.00 0.00 99.95 Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util nvme0n1 0.00 2.85 0.00 11.15 0.00 1.05 0.00 26.92 0.00 0.04 0.98 0.00 3.91 345.61 98.50 nvme1n1 0.00 2.85 0.00 11.15 0.00 1.05 0.00 26.92 0.00 0.04 0.98 0.00 3.91 345.61 98.50 md0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 md1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 md2 0.00 2.20 0.00 8.80 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 4.00 0.00 0.00 avg-cpu: %user %nice %system %iowait %steal %idle 0.03 0.00 0.02 0.00 0.00 99.94 Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util nvme0n1 0.00 2.10 0.00 22.50 0.00 0.55 0.00 20.75 0.00 0.02 0.99 0.00 10.71 473.71 99.48 nvme1n1 0.00 2.10 0.00 22.50 0.00 0.55 0.00 20.75 0.00 0.02 0.99 0.00 10.71 473.71 99.48 md0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 md1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 md2 0.00 1.15 0.00 20.40 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 17.74 0.00 0.00 avg-cpu: %user %nice %system %iowait %steal %idle 0.02 0.00 0.02 0.00 0.00 99.95
一些人將此報告為核心中的錯誤:
https://kudzia.eu/b/2019/09/iostat-x-1-reporting-100-utilization-of-nearly-idle-nvme-drives/
我不太確定,因為我們磁碟的溫度也很高:
/sbin/nvme smart-log /dev/nvme0 Smart Log for NVME device:nvme0 namespace-id:ffffffff critical_warning : 0 temperature : 57 C available_spare : 100% available_spare_threshold : 10% percentage_used : 0% data_units_read : 48,847,719 data_units_written : 5,641,464 host_read_commands : 357,945,226 host_write_commands : 164,837,853 controller_busy_time : 320 power_cycles : 6 power_on_hours : 17,959 unsafe_shutdowns : 2 media_errors : 0 num_err_log_entries : 0 Warning Temperature Time : 0 Critical Composite Temperature Time : 0 Temperature Sensor 1 : 57 C Thermal Management T1 Trans Count : 0 Thermal Management T2 Trans Count : 0 Thermal Management T1 Total Time : 0 Thermal Management T2 Total Time : 0
在其他配置相同且仍在執行 debian9 的伺服器上,我們的磁碟使用率幾乎為 0%,溫度為 40 攝氏度。
iotop 顯示的磁碟訪問不多:
/sbin/iotop --only -ab -n5 -d5 Total DISK READ: 0.00 B/s | Total DISK WRITE: 0.00 B/s Current DISK READ: 0.00 B/s | Current DISK WRITE: 0.00 B/s TID PRIO USER DISK READ DISK WRITE SWAPIN IO COMMAND Total DISK READ: 0.00 B/s | Total DISK WRITE: 11.94 K/s Current DISK READ: 0.00 B/s | Current DISK WRITE: 9.35 K/s TID PRIO USER DISK READ DISK WRITE SWAPIN IO COMMAND 23748 be/4 www-data 0.00 B 60.00 K 0.00 % 0.33 % nginx: worker process 637 be/3 root 0.00 B 0.00 B 0.00 % 0.00 % [jbd2/md2-8] Total DISK READ: 0.00 B/s | Total DISK WRITE: 7.16 K/s Current DISK READ: 0.00 B/s | Current DISK WRITE: 9.35 K/s TID PRIO USER DISK READ DISK WRITE SWAPIN IO COMMAND 23748 be/4 www-data 0.00 B 88.00 K 0.00 % 0.16 % nginx: worker process 637 be/3 root 0.00 B 8.00 K 0.00 % 0.00 % [jbd2/md2-8] Total DISK READ: 0.00 B/s | Total DISK WRITE: 8.75 K/s Current DISK READ: 0.00 B/s | Current DISK WRITE: 9.35 K/s TID PRIO USER DISK READ DISK WRITE SWAPIN IO COMMAND 23748 be/4 www-data 0.00 B 132.00 K 0.00 % 0.11 % nginx: worker process 637 be/3 root 0.00 B 8.00 K 0.00 % 0.00 % [jbd2/md2-8] Total DISK READ: 0.00 B/s | Total DISK WRITE: 26.26 K/s Current DISK READ: 0.00 B/s | Current DISK WRITE: 9.35 K/s TID PRIO USER DISK READ DISK WRITE SWAPIN IO COMMAND 23748 be/4 www-data 0.00 B 252.00 K 0.00 % 0.19 % nginx: worker process 637 be/3 root 0.00 B 12.00 K 0.00 % 0.00 % [jbd2/md2-8] 23749 be/4 www-data 0.00 B 8.00 K 0.00 % 0.00 % nginx: worker process
順便說一句,md raid array的resync幾天前就完成了:
cat /proc/mdstat Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10] md2 : active raid1 nvme1n1p3[0] nvme0n1p3[1] 932839744 blocks super 1.2 [2/2] [UU] bitmap: 3/7 pages [12KB], 65536KB chunk md1 : active raid1 nvme1n1p2[0] nvme0n1p2[1] 523264 blocks super 1.2 [2/2] [UU] md0 : active raid1 nvme1n1p1[0] nvme0n1p1[1] 4194240 blocks super 1.0 [2/2] [UU] unused devices: <none>
當然,我已經嘗試重新啟動機器。
所以看起來有些東西不能正常工作。當我們在生產中將此伺服器用作 nginx 負載均衡器時,我們遇到了一些無法解釋的高峰中斷。我們遇到了上游超時、DNS 錯誤、使用letsencrypt 的OSCP 裝訂錯誤。
所有這些問題都發生在相同的兩分鐘間隔內,並且僅在高峰使用時發生。大約 120 秒後問題消失。在此之後,一切都執行良好,直到下一個峰值(大約 2000-8000 req/s)。
還是您認為溫度和磁碟使用情況正常?
這是核心錯誤嗎?我錯過了什麼重要的事情嗎?我怎樣才能對真正的問題做一些進一步的調查?
我非常確信用於創建 md-raid 的底層 NVMe 驅動器顯示的 100% 使用率是一個核心錯誤 - 請參閱相關報告。暫時升級到核心 5.2 使 100% 的使用率消失了,我們還在較舊/較新的核心上對 md-raid1 進行了基準測試 - 包括那些報告持續完全使用率的核心 - 並且沒有註意到吞吐量或 iops/sec 有任何顯著差異。
57C 的溫度在可接受的範圍內,至少對於我們使用的 Intel 的 P4510 4TB 而言 - 那些在 70C 時具有警告門檻值。
完全披露-我是您引用的部落格文章的作者。
相關錯誤報告:
https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=927184
https://bugs.centos.org/view.php?id=15723
https://github.com/sysstat/sysstat/issues/187
https://github.com/munin-monitoring/munin/issues/1119
https://github.com/netdata/netdata/issues/5744#issuecomment-513873791