Load-Average

I/O 等待的高負載平均

  • December 9, 2011

我的伺服器每隔幾分鐘就會遇到非常高的平均負載峰值(>10,有時甚至 >20)。

top 顯示 CPU 未在使用中,但正在等待 I/O 操作:

top - 17:42:28 up 8 days,  8:10,  1 user,  load average: 9.01, 10.16, 6.54
Cpu0  :  0.0%us,  0.0%sy,  0.0%ni,  0.0%id,100.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu1  :  0.0%us,  0.0%sy,  0.0%ni,  0.0%id,100.0%wa,  0.0%hi,  0.0%si,  0.0%st

dmesg 一遍又一遍地顯示這個輸出(我不明白這是什麼意思):

ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2
ata2.00: BMDMA stat 0x26
ata2.00: cmd ca/00:08:74:c4:24/00:00:00:00:00/ef tag 0 dma 4096 out
        res 51/84:01:7b:c4:24/84:00:10:00:00/ef Emask 0x30 (host bus error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { ICRC ABRT }
ata2: soft resetting link
ata2.00: configured for UDMA/33
ata2: EH complete
sd 3:0:0:0: [sdb] 625142448 512-byte hardware sectors (320073 MB)
sd 3:0:0:0: [sdb] Write Protect is off
sd 3:0:0:0: [sdb] Mode Sense: 00 3a 00 00
sd 3:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA

有任何想法嗎?

伺服器上正在執行 FreeRADIUS,我懷疑 RADIUS 或網路適配器都可能導致問題。在某些峰值期間,tcpdump 顯示發送/接收的 RADIUS 包數量增加(但我說的是每分鐘數十個包,而不是數千個包)。

當我停止 RADIUS 時,情況會好轉,但仍然會出現週期性的負載平均峰值(雖然更容易忍受)。

有誰知道可能導致這種行為的原因,以及我如何確定它是 RADIUS、網路適配器還是其他東西?

謝謝

不,這是一個磁碟或磁碟控制器死亡。這與您正在執行的軟體或網路適配器無關。

如果您還沒有進行備份 - 現在就製作一個並開始尋找替換硬體。

像這樣的一個幾乎相同的問題已在 SU 上發布

在重新啟動或修改設置之前 - 盡快執行備份(並進行奇偶校驗!)。

引用自:https://serverfault.com/questions/339492