Storage
ZFS 池不斷 DEGRADED 或 FAULTED
我有一個游泳池,
raidz1-0
裡面有 5 個驅動器。我不確定確切的時間,但突然之間,所有驅動器都從始終ONLINE
沒有讀取、寫入或校驗和錯誤變為隨機吐出各種問題。NAME STATE READ WRITE CKSUM Data DEGRADED 0 0 0 raidz1-0 DEGRADED 149 185 0 gptid/905fe084-a003-11e9-9d12-000c29c8a62a DEGRADED 57 127 5 too many errors gptid/2b75693a-9f09-11e9-8310-000c29c8a62a ONLINE 7 5 5 gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a DEGRADED 70 171 5 too many errors gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a DEGRADED 51 6 14 too many errors gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a FAULTED 8 13 2 too many errors
我做了一些基本的故障排除:
- SMART 表明一切都很好(除了一些比我想要的溫度在 40C 範圍內的溫度高一些)。所以驅動器看起來狀態良好。沒有壞扇區,沒有掛起的扇區,沒有什麼不尋常的。此時,所有驅動器都已旋轉了約 3 年。
- 每個驅動器都通過單獨的 SATA 連接直接連接到主機板。我已經重新安裝並更換了 SATA 電纜,但沒有成功。
在某個時間點,我更換了池中的第三個磁碟。當時,它吐出的錯誤最多,並且總是第一個進入 DEGRADED 狀態。我用一個全新的驅動器替換了它,它已經執行了幾個月,立即發現與池的其餘部分相同的問題。
即使在
zpool clear
大約 5 小時後,我也有以下狀態。NAME STATE READ WRITE CKSUM Data DEGRADED 0 0 0 raidz1-0 DEGRADED 1 0 0 gptid/905fe084-a003-11e9-9d12-000c29c8a62a ONLINE 2 4 0 gptid/2b75693a-9f09-11e9-8310-000c29c8a62a ONLINE 0 0 0 gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a FAULTED 1 11 0 too many errors gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a ONLINE 1 1 0 gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a ONLINE 1 6 0
我不確定這裡發生了什麼或其他地方可以看。
我不知道這是否是巧合,但我注意到這是在升級 ZFS 池作為 FreeNAS 更新之一的一部分之後開始發生的(我認為它是 11.2U - 是的,我正在執行 FreeNAS)
我唯一能想到的最後一件事是一個壞的 SATA 控制器。但在我開始之前,還有什麼我可以解決的嗎?這是用於業餘愛好的家庭伺服器,更換控制器本質上意味著一個全新的伺服器,所以如果可能的話,我想避免這種情況。不幸的是,沒有任何剩餘的 PCIe 埠可以安裝外部控制器。
提前致謝!
經過近一個月的調試,可以肯定地說,它確實是晶片組的 SATA 控制器。
@shodanshok 讓我注意到英特爾晶片組存在“與年齡相關的重大 SATA 問題”,並且一些額外的Google搜尋表明我不是唯一一個。
我已經購買了一些新硬體,以及用於連接所有驅動器的 LSI 9205-8I H220。沒有對配置進行任何更改(除了更現代的主機板 + CPU),它們的 ZFS 池被導入沒有問題,並且池已經執行了一整天,校驗和/讀/寫錯誤為 0。到現在,它應該有數百個。這確認問題出在板載 SATA 控制器上。
希望這可以幫助遇到類似問題的任何人!