Load-Average
I/O 等待的高負載平均
我的伺服器每隔幾分鐘就會遇到非常高的平均負載峰值(>10,有時甚至 >20)。
top 顯示 CPU 未在使用中,但正在等待 I/O 操作:
top - 17:42:28 up 8 days, 8:10, 1 user, load average: 9.01, 10.16, 6.54 Cpu0 : 0.0%us, 0.0%sy, 0.0%ni, 0.0%id,100.0%wa, 0.0%hi, 0.0%si, 0.0%st Cpu1 : 0.0%us, 0.0%sy, 0.0%ni, 0.0%id,100.0%wa, 0.0%hi, 0.0%si, 0.0%st
dmesg 一遍又一遍地顯示這個輸出(我不明白這是什麼意思):
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 ata2.00: BMDMA stat 0x26 ata2.00: cmd ca/00:08:74:c4:24/00:00:00:00:00/ef tag 0 dma 4096 out res 51/84:01:7b:c4:24/84:00:10:00:00/ef Emask 0x30 (host bus error) ata2.00: status: { DRDY ERR } ata2.00: error: { ICRC ABRT } ata2: soft resetting link ata2.00: configured for UDMA/33 ata2: EH complete sd 3:0:0:0: [sdb] 625142448 512-byte hardware sectors (320073 MB) sd 3:0:0:0: [sdb] Write Protect is off sd 3:0:0:0: [sdb] Mode Sense: 00 3a 00 00 sd 3:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
有任何想法嗎?
伺服器上正在執行 FreeRADIUS,我懷疑 RADIUS 或網路適配器都可能導致問題。在某些峰值期間,tcpdump 顯示發送/接收的 RADIUS 包數量增加(但我說的是每分鐘數十個包,而不是數千個包)。
當我停止 RADIUS 時,情況會好轉,但仍然會出現週期性的負載平均峰值(雖然更容易忍受)。
有誰知道可能導致這種行為的原因,以及我如何確定它是 RADIUS、網路適配器還是其他東西?
謝謝
不,這是一個磁碟或磁碟控制器死亡。這與您正在執行的軟體或網路適配器無關。
如果您還沒有進行備份 - 現在就製作一個並開始尋找替換硬體。
像這樣的一個幾乎相同的問題已在 SU 上發布
在重新啟動或修改設置之前 - 盡快執行備份(並進行奇偶校驗!)。