持續順序寫入的性能大幅下降

May 17, 2017

我正在將數據遷移到 LUKS 分區中。現在作業系統驅動器正在執行 LUKS，我嘗試開始遷移數據驅動器。然後伺服器停止響應。

此 LUKS 設備已打開：

cryptsetup luksOpen /dev/sdc data1

這些命令中的任何一個都會扼殺伺服器：

pv /dev/zero &gt; /dev/mapper/data1
pv /dev/zero &gt; /dev/sdc

不是立即，而是在幾秒鐘內，伺服器變得異常緩慢。I/O 上的所有內容都被阻塞：

root@node51 [~]# ps aux | awk '{if($8~"D"||$8=="STAT"){print $0}}' 
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root      1197  0.0  0.0      0     0 ?        D    06:39   0:00 [jbd2/dm-1-8]
root      1687  0.1  0.0      0     0 ?        D    11:15   0:12 [kworker/u96:5]
root     13057  2.0  0.0      0     0 ?        D    13:10   0:01 [dmcrypt_write]
root     13644 10.9  0.0   7452   784 pts/1    D+   13:10   0:08 pv /dev/zero
root     14159  0.0  0.0  98256  6836 ?        DNs  13:10   0:00 sshd: root [priv]
root     14772  0.0  0.0  29008    92 ?        D    13:11   0:00 /usr/sbin/CRON -f
root     14773  0.0  0.0  98256  6748 ?        DNs  13:11   0:00 sshd: root [priv]
root     15411  0.0  0.0  98256  6876 ?        DNs  13:11   0:00 sshd: root [priv]
root     16009  0.1  0.0  98256  6840 ?        DNs  13:11   0:00 sshd: root [priv]
root     16632  0.5  0.0  98256  6892 ?        DNs  13:11   0:00 sshd: root [priv]
root     16900  0.0  0.0   5448   356 pts/3    D+   13:11   0:00 awk {if($8~"D"||$8=="STAT"){print $0}}
root     28553  0.6  0.0      0     0 ?        D    12:12   0:21 [txg_sync]

值得注意的是，大約兩秒鐘，pv報告它正在以超過2GiB/s. 這既是回寫記憶體，也是填滿的髒頁（通過監控發現/proc/meminfo）。

之後，pv記錄了正常的寫入速度，200MiB/s但在回寫記憶體中仍然領先。2GiB``3GiB

由於所有 I/O 阻塞的進行，伺服器平均負載躍升至 10.00 以上。

中止寫測試需要一段時間，pv因為需要清空回寫記憶體，但在中止測試後，伺服器性能恢復正常。

有趣的是，這些命令不會導致伺服器滯後：

# Reads from dm-crypt block device
pv /dev/mapper/data1 &gt; /dev/zero
# Reads from the raw block device
pv /dev/sdc &gt; /dev/zero

# Writes to a control disk of a different model
pv /dev/zero &gt; /dev/sdi
# Reads from a control disk
pv /dev/sdi &gt; /dev/zero

# Writes to a file on a dm-crypt ext4 filesystem on a solid-state drive
pv /dev/zero &gt; /tmp/empty
# Reads from that same solid-state drive
pv /dev/sda &gt; /dev/zero

我有這些問題：

為什麼持續順序寫入此數據磁碟會大大降低伺服器速度？
在寫入特定的一個或幾個磁碟時，如何避免阻塞其他磁碟？
為什麼這種硬碟會導致性能問題，而其他硬碟卻不會？

我有六個相同型號的磁碟（/dev/sdc、/dev/sdd、/dev/sde、/dev/sdf、/dev/sdg和/dev/sdh）要加密，它們將來會有順序寫入工作負載，所以我不希望伺服器因這個問題而停滯不前。

附加資訊

要聞速覽

伺服器： 戴爾 PowerEdge T320

核心： Linux node51 4.4.0-22-generic #39-Ubuntu SMP Thu May 5 16:53:32 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux

作業系統： Ubuntu Server 16.04 LTS Xenial Xerus 64-bit

有問題的硬碟： 東芝 PH3500U-1I72

我有六個這樣的磁碟，它們都被認為是健康的，我測試了其中的兩個，並且都經歷了伺服器範圍的 I/O 性能下降。200MiB/s他們幾乎在一開始就閱讀和寫作。

控制（無問題）硬碟： 三星SP1614C

該磁碟的持續寫入速度為50MiB/s. 會不會是有問題的磁碟太快了？

磁碟控制器： 戴爾 PERC H310

兩個固態驅動器和六個有問題的硬碟驅動器連接到這個控制器，所有這些驅動器都直接作為AHCI傳遞。控制盤連接到主機板內置的 SATA 埠。

I/O 調度程序

root@node51 [/tmp]# tail -n +1 /sys/block/sd*/queue/scheduler 
==&gt; /sys/block/sda/queue/scheduler &lt;==
noop [deadline] cfq 

==&gt; /sys/block/sdb/queue/scheduler &lt;==
noop [deadline] cfq 

==&gt; /sys/block/sdc/queue/scheduler &lt;==
[noop] deadline cfq 

==&gt; /sys/block/sdd/queue/scheduler &lt;==
[noop] deadline cfq 

==&gt; /sys/block/sde/queue/scheduler &lt;==
[noop] deadline cfq 

==&gt; /sys/block/sdf/queue/scheduler &lt;==
[noop] deadline cfq 

==&gt; /sys/block/sdg/queue/scheduler &lt;==
[noop] deadline cfq 

==&gt; /sys/block/sdh/queue/scheduler &lt;==
[noop] deadline cfq 

==&gt; /sys/block/sdi/queue/scheduler &lt;==
noop [deadline] cfq

更改/dev/sdcfrom noopto的調度程序deadline沒有明顯的區別。將調度程序更改為cfq似乎在一定程度上減少了延遲，但其他磁碟上的 I/O 操作仍然受到影響。

`vm.dirty*`核心參數

root@node51 [~]# sysctl -a | grep 'vm.dirty'
vm.dirty_background_bytes = 0
vm.dirty_background_ratio = 10
vm.dirty_bytes = 0
vm.dirty_expire_centisecs = 3000
vm.dirty_ratio = 20
vm.dirty_writeback_centisecs = 500
vm.dirtytime_expire_seconds = 43200

檢測到並記錄到的緩慢範例`/var/log/syslog`

ZFS 事務組同步：

May 11 19:28:44 node51 kernel: [ 4080.179688] INFO: task txg_sync:3179 blocked for more than 120 seconds.
May 11 19:28:44 node51 kernel: [ 4080.179905]       Tainted: P           O    4.4.0-22-generic #39-Ubuntu
May 11 19:28:44 node51 kernel: [ 4080.180110] "echo 0 &gt; /proc/sys/kernel/hung_task_timeout_secs" disables this message.
May 11 19:28:44 node51 kernel: [ 4080.180357] txg_sync        D ffff88060b68baa8     0  3179      2 0x00000000
May 11 19:28:44 node51 kernel: [ 4080.180362]  ffff88060b68baa8 ffff880616a96d00 ffff8806133ea940 ffff880603dc2940
May 11 19:28:44 node51 kernel: [ 4080.180366]  ffff88060b68c000 ffff880616ad6d00 7fffffffffffffff ffff88056cb8c508
May 11 19:28:44 node51 kernel: [ 4080.180368]  0000000000000001 ffff88060b68bac0 ffffffff818211f5 0000000000000000
May 11 19:28:44 node51 kernel: [ 4080.180372] Call Trace:
May 11 19:28:44 node51 kernel: [ 4080.180381]  [&lt;ffffffff818211f5&gt;] schedule+0x35/0x80
May 11 19:28:44 node51 kernel: [ 4080.180385]  [&lt;ffffffff81824315&gt;] schedule_timeout+0x1b5/0x270
May 11 19:28:44 node51 kernel: [ 4080.180390]  [&lt;ffffffff810abe52&gt;] ? default_wake_function+0x12/0x20
May 11 19:28:44 node51 kernel: [ 4080.180395]  [&lt;ffffffff810c33b2&gt;] ? __wake_up_common+0x52/0x90
May 11 19:28:44 node51 kernel: [ 4080.180398]  [&lt;ffffffff81820744&gt;] io_schedule_timeout+0xa4/0x110
May 11 19:28:44 node51 kernel: [ 4080.180412]  [&lt;ffffffffc05afbec&gt;] cv_wait_common+0xbc/0x140 [spl]
May 11 19:28:44 node51 kernel: [ 4080.180416]  [&lt;ffffffff810c3a70&gt;] ? wake_atomic_t_function+0x60/0x60
May 11 19:28:44 node51 kernel: [ 4080.180423]  [&lt;ffffffffc05afcc8&gt;] __cv_wait_io+0x18/0x20 [spl]
May 11 19:28:44 node51 kernel: [ 4080.180487]  [&lt;ffffffffc071320e&gt;] zio_wait+0x10e/0x1f0 [zfs]
May 11 19:28:44 node51 kernel: [ 4080.180528]  [&lt;ffffffffc069ce66&gt;] dsl_pool_sync+0x2c6/0x430 [zfs]
May 11 19:28:44 node51 kernel: [ 4080.180573]  [&lt;ffffffffc06b85b6&gt;] spa_sync+0x366/0xb30 [zfs]
May 11 19:28:44 node51 kernel: [ 4080.180576]  [&lt;ffffffff810abe52&gt;] ? default_wake_function+0x12/0x20
May 11 19:28:44 node51 kernel: [ 4080.180623]  [&lt;ffffffffc06c9a4a&gt;] txg_sync_thread+0x3ba/0x630 [zfs]
May 11 19:28:44 node51 kernel: [ 4080.180669]  [&lt;ffffffffc06c9690&gt;] ? txg_delay+0x180/0x180 [zfs]
May 11 19:28:44 node51 kernel: [ 4080.180676]  [&lt;ffffffffc05aae31&gt;] thread_generic_wrapper+0x71/0x80 [spl]
May 11 19:28:44 node51 kernel: [ 4080.180682]  [&lt;ffffffffc05aadc0&gt;] ? __thread_exit+0x20/0x20 [spl]
May 11 19:28:44 node51 kernel: [ 4080.180686]  [&lt;ffffffff810a0588&gt;] kthread+0xd8/0xf0
May 11 19:28:44 node51 kernel: [ 4080.180688]  [&lt;ffffffff810a04b0&gt;] ? kthread_create_on_node+0x1e0/0x1e0
May 11 19:28:44 node51 kernel: [ 4080.180692]  [&lt;ffffffff8182568f&gt;] ret_from_fork+0x3f/0x70
May 11 19:28:44 node51 kernel: [ 4080.180694]  [&lt;ffffffff810a04b0&gt;] ? kthread_create_on_node+0x1e0/0x1e0

ext4 期刊：

May 11 20:46:46 node51 kernel: [ 6000.186474] INFO: task jbd2/dm-2-8:1148 blocked for more than 120 seconds.
May 11 20:46:46 node51 kernel: [ 6000.193164]       Tainted: P           O    4.4.0-22-generic #39-Ubuntu
May 11 20:46:46 node51 kernel: [ 6000.199950] "echo 0 &gt; /proc/sys/kernel/hung_task_timeout_secs" disables this message.
May 11 20:46:46 node51 kernel: [ 6000.208323] jbd2/dm-2-8     D ffff88060a6e7c98     0  1148      2 0x00000000
May 11 20:46:46 node51 kernel: [ 6000.208330]  ffff88060a6e7c98 0000000000000246 ffff8806133eb700 ffff88060b561b80
May 11 20:46:46 node51 kernel: [ 6000.208333]  ffff88060a6e8000 ffff88060aeb68b8 ffff88060a6e7d88 ffff88060a6e7d70
May 11 20:46:46 node51 kernel: [ 6000.208336]  ffff88060b561b80 ffff88060a6e7cb0 ffffffff818211f5 ffff8805fd6af900
May 11 20:46:46 node51 kernel: [ 6000.208339] Call Trace:
May 11 20:46:46 node51 kernel: [ 6000.208355]  [&lt;ffffffff818211f5&gt;] schedule+0x35/0x80
May 11 20:46:46 node51 kernel: [ 6000.208361]  [&lt;ffffffff812ea0e0&gt;] jbd2_journal_commit_transaction+0x240/0x1870
May 11 20:46:46 node51 kernel: [ 6000.208365]  [&lt;ffffffff810b6be1&gt;] ? dequeue_entity+0x431/0xa80
May 11 20:46:46 node51 kernel: [ 6000.208368]  [&lt;ffffffff810b774a&gt;] ? dequeue_task_fair+0x51a/0x8a0
May 11 20:46:46 node51 kernel: [ 6000.208372]  [&lt;ffffffff810c3a70&gt;] ? wake_atomic_t_function+0x60/0x60
May 11 20:46:46 node51 kernel: [ 6000.208378]  [&lt;ffffffff810ec5fe&gt;] ? try_to_del_timer_sync+0x5e/0x90
May 11 20:46:46 node51 kernel: [ 6000.208381]  [&lt;ffffffff812ef32a&gt;] kjournald2+0xca/0x250
May 11 20:46:46 node51 kernel: [ 6000.208384]  [&lt;ffffffff810c3a70&gt;] ? wake_atomic_t_function+0x60/0x60
May 11 20:46:46 node51 kernel: [ 6000.208387]  [&lt;ffffffff812ef260&gt;] ? commit_timeout+0x10/0x10
May 11 20:46:46 node51 kernel: [ 6000.208391]  [&lt;ffffffff810a0588&gt;] kthread+0xd8/0xf0
May 11 20:46:46 node51 kernel: [ 6000.208394]  [&lt;ffffffff810a04b0&gt;] ? kthread_create_on_node+0x1e0/0x1e0
May 11 20:46:46 node51 kernel: [ 6000.208397]  [&lt;ffffffff8182568f&gt;] ret_from_fork+0x3f/0x70
May 11 20:46:46 node51 kernel: [ 6000.208399]  [&lt;ffffffff810a04b0&gt;] ? kthread_create_on_node+0x1e0/0x1e0
May 11 20:46:46 node51 kernel: [ 6292.776357] perf interrupt took too long (2539 &gt; 2500), lowering kernel.perf_event_max_sample_rate to 50000

控制盤連接到主機板內置的 SATA 埠。
如前所述，遇到日誌刷新超時問題的磁碟連接到 PERC，即“有問題的”東芝連接到的同一控制器。
PERC 310 只是一個基本的硬體 RAID 卡。它的 CPU 可能很容易不堪重負，或者存在韌體錯誤。直接 AHCI 不是很常見的用法。
我建議 IO 鎖定在 PERC 上，而不是作業系統上

這要消化很多。
您正在使用 ZFS，因此這很有可能是您池中的 5TB 磁碟以及您的池設置存在的問題。
這些可能是 4k 扇區磁碟，因此應在 ZFS 設置中進行一些調整以解決此問題。
你能提供你的df -h, fdisk -l, zpool list,zpool status -v和zfs list輸出嗎？

引用自：https://serverfault.com/questions/776493

持續順序寫入的性能大幅下降

附加資訊

要聞速覽

I/O 調度程序

`vm.dirty*`核心參數

檢測到並記錄到的緩慢範例`/var/log/syslog`

相關問答

使用 fio 或其他工具模擬一些程序 IO

以程式方式測量磁碟 IO

磁碟寫入速度遠低於讀取速度

iostat 如何計算出將 CPU 空閒時間視為 %idle 或 %iowait？

Linux 預讀的缺點

為什麼順序寫入比 SSD 上的隨機寫入具有更好的性能？

持續順序寫入的性能大幅下降

附加資訊

要聞速覽

I/O 調度程序

vm.dirty*核心參數

檢測到並記錄到的緩慢範例/var/log/syslog

相關問答

使用 fio 或其他工具模擬一些程序 IO

以程式方式測量磁碟 IO

磁碟寫入速度遠低於讀取速度

iostat 如何計算出將 CPU 空閒時間視為 %idle 或 %iowait？

Linux 預讀的缺點

為什麼順序寫入比 SSD 上的隨機寫入具有更好的性能？

`vm.dirty*`核心參數

檢測到並記錄到的緩慢範例`/var/log/syslog`