如何解釋這個 smartctl (smartmon) 數據

February 24, 2022

我們有一個 linux 伺服器，它已經大量使用了 3 年。我們在其上執行了許多虛擬化伺服器，其中一些表現不佳，並且在很長一段時間內伺服器的 io 容量被超出，導致 iowait 錯誤。它有 4 個 500gb 梭子魚 sata 驅動器連接到 3com RAID 控制器。1個驅動器有作業系統，另外3個是設置raid-5。
現在我們就驅動器的狀況以及它們是否正在發生故障進行辯論。
這是 4 個磁碟中的 1 個的輸出的一部分。它們都有相對相似的統計數據：
SMART 屬性資料結構修訂號：10
具有門檻值的供應商特定 SMART 屬性：
ID# ATTRIBUTE_NAME 標誌值最壞門檻值類型在 WHEN_FAILED RAW_VALUE 時更新
1 Raw_Read_Error_Rate 0x000f 118 099 006 故障前始終 - 169074425
3 Spin_Up_Time 0x0003 095 092 000 故障前始終 - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age 始終 - 26
5 Reallocated_Sector_Ct 0x0033 100 100 036 故障前始終 - 0
7 Seek_Error_Rate 0x000f 077 060 030 故障前始終 - 200009354607
9 Power_On_Hours 0x0032 069 069 000 Old_age 始終 - 27856
10 Spin_Retry_Count 0x0013 100 100 097 故障前始終 - 1
12 Power_Cycle_Count 0x0032 100 100 020 Old_age 始終 - 26
184 Unknown_Attribute 0x0032 100 100 099 Old_age 總是 - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age 總是 - 0
188 Unknown_Attribute 0x0032 100 100 000 Old_age 始終 - 1
189 High_Fly_Writes 0x003a 100 100 000 Old_age 始終 - 0
190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age 始終 - 29（壽命最小值/最大值 26/37）
194 Temperature_Celsius 0x0022 029 040 000 Old_age 始終 - 29 (0 21 0 0)
195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age 始終 - 169074425
197 Current_Pending_Sector 0x0012 100 100 000 Old_age 始終 - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 總是 - 0

SMART 錯誤日誌版本：1
沒有記錄錯誤
我對此的解釋是，我們沒有任何壞扇區或其他跡象表明任何驅動器正在發生故障。
然而，高 Raw_Read_Error_Rate 和 Seek_Error_Rate 被指出是驅動器正在死亡的跡象。

以我的經驗，希捷對這兩個 SMART 屬性有奇怪的數字。在診斷希捷時，我傾向於忽略這些並更仔細地查看其他欄位，例如重新分配的扇區計數。當然，當有疑問時更換驅動器，但即使是全新的希捷也會在這些屬性上擁有很高的數量。

對於 Seagate 磁碟（可能還有一些來自 WD 的舊磁碟），Seek_Error_Rate 和 Raw_Read_Error_Rate 是 48 位數字，其中最高有效 16 位是錯誤計數，低 32 位是一些操作。
% python
>&gt;&gt; 200009354607 & 0xFFFFFFFF
2440858991
>&gt;&gt; (200009354607 & 0xFFFF00000000) &gt;&gt; 32
46
所以你的磁碟已經執行了 2440858991 次查找，其中 46 次失敗。我對希捷硬碟的經驗是，當錯誤數量超過 1000 時，它們往往會出現故障。YMMV。

引用自：https://serverfault.com/questions/313649

如何解釋這個 smartctl (smartmon) 數據

相關問答

如何更改 SMART 屬性值？

如何輕鬆修復 Linux 磁碟上的單個不可讀塊？

smartd 真的報告這個驅動器太熱了嗎？

測試故障磁碟

對 RAID1 的所有驅動器的 SMART 短離線測試永不結束

有故障的魚子醬藍硬碟？