Linux

如何解釋這個 smartctl (smartmon) 數據

  • February 24, 2022

我們有一個 linux 伺服器,它已經大量使用了 3 年。我們在其上執行了許多虛擬化伺服器,其中一些表現不佳,並且在很長一段時間內伺服器的 io 容量被超出,導致 iowait 錯誤。它有 4 個 500gb 梭子魚 sata 驅動器連接到 3com RAID 控制器。1個驅動器有作業系統,另外3個是設置raid-5。

現在我們就驅動器的狀況以及它們是否正在發生故障進行辯論。

這是 4 個磁碟中的 1 個的輸出的一部分。它們都有相對相似的統計數據:

SMART 屬性資料結構修訂號:10
具有門檻值的供應商特定 SMART 屬性:
ID# ATTRIBUTE_NAME 標誌值最壞門檻值類型在 WHEN_FAILED RAW_VALUE 時更新
1 Raw_Read_Error_Rate 0x000f 118 099 006 故障前始終 - 169074425
3 Spin_Up_Time 0x0003 095 092 000 故障前始終 - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age 始終 - 26
5 Reallocated_Sector_Ct 0x0033 100 100 036 故障前始終 - 0
7 Seek_Error_Rate 0x000f 077 060 030 故障前始終 - 200009354607
9 Power_On_Hours 0x0032 069 069 000 Old_age 始終 - 27856
10 Spin_Retry_Count 0x0013 100 100 097 故障前始終 - 1
12 Power_Cycle_Count 0x0032 100 100 020 Old_age 始終 - 26
184 Unknown_Attribute 0x0032 100 100 099 Old_age 總是 - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age 總是 - 0
188 Unknown_Attribute 0x0032 100 100 000 Old_age 始終 - 1
189 High_Fly_Writes 0x003a 100 100 000 Old_age 始終 - 0
190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age 始終 - 29(壽命最小值/最大值 26/37)
194 Temperature_Celsius 0x0022 029 040 000 Old_age 始終 - 29 (0 21 0 0)
195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age 始終 - 169074425
197 Current_Pending_Sector 0x0012 100 100 000 Old_age 始終 - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 總是 - 0

SMART 錯誤日誌版本:1
沒有記錄錯誤

我對此的解釋是,我們沒有任何壞扇區或其他跡象表明任何驅動器正在發生故障。

然而,高 Raw_Read_Error_Rate 和 Seek_Error_Rate 被指出是驅動器正在死亡的跡象。

以我的經驗,希捷對這兩個 SMART 屬性有奇怪的數字。在診斷希捷時,我傾向於忽略這些並更仔細地查看其他欄位,例如重新分配的扇區計數。當然,當有疑問時更換驅動器,但即使是全新的希捷也會在這些屬性上擁有很高的數量。

對於 Seagate 磁碟(可能還有一些來自 WD 的舊磁碟),Seek_Error_Rate 和 Raw_Read_Error_Rate 是 48 位數字,其中最高有效 16 位是錯誤計數,低 32 位是一些操作。

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

所以你的磁碟已經執行了 2440858991 次查找,其中 46 次失敗。我對希捷硬碟的經驗是,當錯誤數量超過 1000 時,它們往往會出現故障。YMMV。

引用自:https://serverfault.com/questions/313649