Storage

ZFS 池不斷 DEGRADED 或 FAULTED

  • June 2, 2021

我有一個游泳池,raidz1-0裡面有 5 個驅動器。我不確定確切的時間,但突然之間,所有驅動器都從始終ONLINE沒有讀取、寫入或校驗和錯誤變為隨機吐出各種問題。

   NAME                                            STATE     READ WRITE CKSUM
   Data                                            DEGRADED     0     0     0
     raidz1-0                                      DEGRADED   149   185     0
       gptid/905fe084-a003-11e9-9d12-000c29c8a62a  DEGRADED    57   127     5  too many errors
       gptid/2b75693a-9f09-11e9-8310-000c29c8a62a  ONLINE       7     5     5
       gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a  DEGRADED    70   171     5  too many errors
       gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a  DEGRADED    51     6    14  too many errors
       gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a  FAULTED      8    13     2  too many errors

我做了一些基本的故障排除:

  • SMART 表明一切都很好(除了一些比我想要的溫度在 40C 範圍內的溫度高一些)。所以驅動器看起來狀態良好。沒有壞扇區,沒有掛起的扇區,沒有什麼不尋常的。此時,所有驅動器都已旋轉了約 3 年。
  • 每個驅動器都通過單獨的 SATA 連接直接連接到主機板。我已經重新安裝並更換了 SATA 電纜,但沒有成功。

在某個時間點,我更換了池中的第三個磁碟。當時,它吐出的錯誤最多,並且總是第一個進入 D​​EGRADED 狀態。我用一個全新的驅動器替換了它,它已經執行了幾個月,立即發現與池的其餘部分相同的問題。

即使在zpool clear大約 5 小時後,我也有以下狀態。

   NAME                                            STATE     READ WRITE CKSUM
   Data                                            DEGRADED     0     0     0
     raidz1-0                                      DEGRADED     1     0     0
       gptid/905fe084-a003-11e9-9d12-000c29c8a62a  ONLINE       2     4     0
       gptid/2b75693a-9f09-11e9-8310-000c29c8a62a  ONLINE       0     0     0
       gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a  FAULTED      1    11     0  too many errors
       gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a  ONLINE       1     1     0
       gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a  ONLINE       1     6     0

我不確定這裡發生了什麼或其他地方可以看。

我不知道這是否是巧合,但我注意到這是在升級 ZFS 池作為 FreeNAS 更新之一的一部分之後開始發生的(我認為它是 11.2U - 是的,我正在執行 FreeNAS)

我唯一能想到的最後一件事是一個壞的 SATA 控制器。但在我開始之前,還有什麼我可以解決的嗎?這是用於業餘愛好的家庭伺服器,更換控制器本質上意味著一個全新的伺服器,所以如果可能的話,我想避免這種情況。不幸的是,沒有任何剩餘的 PCIe 埠可以安裝外部控制器。

提前致謝!

經過近一個月的調試,可以肯定地說,它確實是晶片組的 SATA 控制器。

@shodanshok 讓我注意到英特爾晶片組存在“與年齡相關的重大 SATA 問題”,並且一些額外的Google搜尋表明我不是唯一一個。

我已經購買了一些新硬體,以及用於連接所有驅動器的 LSI 9205-8I H220。沒有對配置進行任何更改(除了更現代的主機板 + CPU),它們的 ZFS 池被導入沒有問題,並且池已經執行了一整天,校驗和/讀/寫錯誤為 0。到現在,它應該有數百個。這確認問題出在板載 SATA 控制器上。

希望這可以幫助遇到類似問題的任何人!

引用自:https://serverfault.com/questions/1062787