Linux
如何解釋這個 smartctl (smartmon) 數據
我們有一個 linux 伺服器,它已經大量使用了 3 年。我們在其上執行了許多虛擬化伺服器,其中一些表現不佳,並且在很長一段時間內伺服器的 io 容量被超出,導致 iowait 錯誤。它有 4 個 500gb 梭子魚 sata 驅動器連接到 3com RAID 控制器。1個驅動器有作業系統,另外3個是設置raid-5。
現在我們就驅動器的狀況以及它們是否正在發生故障進行辯論。
這是 4 個磁碟中的 1 個的輸出的一部分。它們都有相對相似的統計數據:
SMART 屬性資料結構修訂號:10 具有門檻值的供應商特定 SMART 屬性: ID# ATTRIBUTE_NAME 標誌值最壞門檻值類型在 WHEN_FAILED RAW_VALUE 時更新 1 Raw_Read_Error_Rate 0x000f 118 099 006 故障前始終 - 169074425 3 Spin_Up_Time 0x0003 095 092 000 故障前始終 - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age 始終 - 26 5 Reallocated_Sector_Ct 0x0033 100 100 036 故障前始終 - 0 7 Seek_Error_Rate 0x000f 077 060 030 故障前始終 - 200009354607 9 Power_On_Hours 0x0032 069 069 000 Old_age 始終 - 27856 10 Spin_Retry_Count 0x0013 100 100 097 故障前始終 - 1 12 Power_Cycle_Count 0x0032 100 100 020 Old_age 始終 - 26 184 Unknown_Attribute 0x0032 100 100 099 Old_age 總是 - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age 總是 - 0 188 Unknown_Attribute 0x0032 100 100 000 Old_age 始終 - 1 189 High_Fly_Writes 0x003a 100 100 000 Old_age 始終 - 0 190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age 始終 - 29(壽命最小值/最大值 26/37) 194 Temperature_Celsius 0x0022 029 040 000 Old_age 始終 - 29 (0 21 0 0) 195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age 始終 - 169074425 197 Current_Pending_Sector 0x0012 100 100 000 Old_age 始終 - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 總是 - 0 SMART 錯誤日誌版本:1 沒有記錄錯誤
我對此的解釋是,我們沒有任何壞扇區或其他跡象表明任何驅動器正在發生故障。
然而,高 Raw_Read_Error_Rate 和 Seek_Error_Rate 被指出是驅動器正在死亡的跡象。
以我的經驗,希捷對這兩個 SMART 屬性有奇怪的數字。在診斷希捷時,我傾向於忽略這些並更仔細地查看其他欄位,例如重新分配的扇區計數。當然,當有疑問時更換驅動器,但即使是全新的希捷也會在這些屬性上擁有很高的數量。
對於 Seagate 磁碟(可能還有一些來自 WD 的舊磁碟),Seek_Error_Rate 和 Raw_Read_Error_Rate 是 48 位數字,其中最高有效 16 位是錯誤計數,低 32 位是一些操作。
% python >>> 200009354607 & 0xFFFFFFFF 2440858991 >>> (200009354607 & 0xFFFF00000000) >> 32 46
所以你的磁碟已經執行了 2440858991 次查找,其中 46 次失敗。我對希捷硬碟的經驗是,當錯誤數量超過 1000 時,它們往往會出現故障。YMMV。