Ubuntu

磁碟問題:irq_stat 0x20000000,主機匯流排錯誤

  • August 29, 2021

將大文件 (50+GB) 從 NVMe 磁碟複製到 SATA 7200rpm HDD 磁碟時,我在完全修補的 Ubuntu 20.04 的日誌中看到以下錯誤:

Aug 08 00:45:59 host kernel: ata6.00: exception Emask 0x20 SAct 0x0 SErr 0x0 action 0x6 frozen
Aug 08 00:45:59 host kernel: ata6.00: irq_stat 0x20000000, host bus error
Aug 08 00:45:59 host kernel: ata6.00: failed command: WRITE DMA EXT
Aug 08 00:45:59 host kernel: ata6.00: cmd 35/00:08:30:a2:e0/00:00:e8:00:00/e0 tag 23 dma 4096 out
                                   res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x20 (host bus error)
Aug 08 00:45:59 host kernel: ata6.00: status: { DRDY }
Aug 08 00:45:59 host kernel: ata6: hard resetting link
Aug 08 00:46:00 host kernel: ata6: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Aug 08 00:46:00 host kernel: ata6.00: configured for UDMA/133
Aug 08 00:46:00 host kernel: ata6: EH complete

ata6.00是正在寫入的磁碟。

問題是間歇性的。有時 24 小時不出現,有時每小時出現幾次。通常磁碟會恢復,但有時文件系統會損壞,需要解除安裝、修復(如果可能)並重新安裝。

我嘗試了什麼:

  1. 我嘗試了 3 種不同品牌的硬碟。所有人都有同樣的問題。
  2. 我懷疑是硬體問題。我更換了主機板和 SATA 電纜。這些都沒有幫助。
  3. 我有另一台具有相同配置的伺服器。該問題不會在那裡發生。相同的工作量。
  4. 我還有另一台配置完全不同的伺服器(英特爾與 AMD)。問題發生在那裡。相同的工作量。
  5. 我通過禁用 NCQ echo 1 > /sys/block/sda/device/queue_depth。沒有幫助。

我沒有主意了……

這些都是數據中心級組件。鑑於我採取的步驟,我想這不是硬體製造缺陷。

這可能與軟體/作業系統/BIOS 相關嗎?

任何想法我還應該嘗試什麼?

似乎可以通過升級到 Ubuntu 21.04 來解決。不知道為什麼。伺服器現在執行穩定,沒有任何 ATA 問題。

也許這更多的是工作溫度的問題?隨著磁碟不斷使用,它的物理位置和熱得失比變得太高導致行為不穩定?

在像您這樣的較新核心上,可以將驅動器溫度放入 sysfs 中的以下路徑:

/sys/class/hwmon/*

一定要確保drivetemp模組載入了modprobe drivetemp.

您可以考慮監視此處的文件並再次開始大文件副本,此處的核心文件提供瞭如何解釋這些文件的指示。

它們包括有用的值,例如工作最低/最高溫度,一些驅動程序還可以提供警報指示器,這些警報指示器是在故障時觸發的與晶片相關的警報。

引用自:https://serverfault.com/questions/1073871