I/O 等待的高負載平均

December 9, 2011

我的伺服器每隔幾分鐘就會遇到非常高的平均負載峰值（>10，有時甚至 >20）。
top 顯示 CPU 未在使用中，但正在等待 I/O 操作：
top - 17:42:28 up 8 days,  8:10,  1 user,  load average: 9.01, 10.16, 6.54
Cpu0  :  0.0%us,  0.0%sy,  0.0%ni,  0.0%id,100.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu1  :  0.0%us,  0.0%sy,  0.0%ni,  0.0%id,100.0%wa,  0.0%hi,  0.0%si,  0.0%st
dmesg 一遍又一遍地顯示這個輸出（我不明白這是什麼意思）：
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2
ata2.00: BMDMA stat 0x26
ata2.00: cmd ca/00:08:74:c4:24/00:00:00:00:00/ef tag 0 dma 4096 out
        res 51/84:01:7b:c4:24/84:00:10:00:00/ef Emask 0x30 (host bus error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { ICRC ABRT }
ata2: soft resetting link
ata2.00: configured for UDMA/33
ata2: EH complete
sd 3:0:0:0: [sdb] 625142448 512-byte hardware sectors (320073 MB)
sd 3:0:0:0: [sdb] Write Protect is off
sd 3:0:0:0: [sdb] Mode Sense: 00 3a 00 00
sd 3:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
有任何想法嗎？
伺服器上正在執行 FreeRADIUS，我懷疑 RADIUS 或網路適配器都可能導致問題。在某些峰值期間，tcpdump 顯示發送/接收的 RADIUS 包數量增加（但我說的是每分鐘數十個包，而不是數千個包）。
當我停止 RADIUS 時，情況會好轉，但仍然會出現週期性的負載平均峰值（雖然更容易忍受）。
有誰知道可能導致這種行為的原因，以及我如何確定它是 RADIUS、網路適配器還是其他東西？
謝謝

不，這是一個磁碟或磁碟控制器死亡。這與您正在執行的軟體或網路適配器無關。
如果您還沒有進行備份 - 現在就製作一個並開始尋找替換硬體。

像這樣的一個幾乎相同的問題已在 SU 上發布
在重新啟動或修改設置之前 - 盡快執行備份（並進行奇偶校驗！）。

引用自：https://serverfault.com/questions/339492

I/O 等待的高負載平均

相關問答

我應該使用 cpu 使用率還是系統負載？

使用 vcpu 的 linux 負載平均解釋

多核系統的平均負載解釋

CPU 使用率高但平均負載低

ZFS：arc_prune 正在使用 100% 的 CPU，平均負載較高

是否有一個 linux 工具可以每 x 秒列印一次平均負載和 CPU 空閒百分比？