Linux

smartd 真的報告這個驅動器太熱了嗎?

  • July 11, 2020

“SMART 使用屬性:194 Temperature_Celsius 從 146 變為 150”。這是在 CentOS 6.6 上。

這到底是什麼意思?驅動器真的很熱還是可能是軟體錯誤?該驅動器是 eSATA 2TB 驅動器,觸感涼爽,位於地下室的伺服器為 70F。

# smartctl -A /dev/sdb
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-504.16.2.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
 1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
 2 Throughput_Performance  0x0005   134   134   054    Pre-fail  Offline      -       89
 3 Spin_Up_Time            0x0007   123   123   024    Pre-fail  Always       -       507 (Average 505)
 4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       89
 5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
 7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
 8 Seek_Time_Performance   0x0005   135   135   020    Pre-fail  Offline      -       26
 9 Power_On_Hours          0x0012   096   096   000    Old_age   Always       -       29541
10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       71
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       205
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       205
**194 Temperature_Celsius     0x0002   150   150   000    Old_age   Always       -       40 (Min/Max 20/49)**
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       9

那隻是 SMART 屬性值。它不是任何正常單位的溫度。(它更像是一個介於 255(真的很冷)和 0(真的很熱)之間的數字,具體取決於驅動器什麼是熱的,什麼不是)

如果您想查看驅動器使用的溫度smartctl -A /dev/sdx

你會得到這樣的表:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
194 Temperature_Celsius     0x0022   107   097   000    Old_age   Always       -       45

RAW_VALUE就是你要找的……(我的驅動器在 45°C 時非常熱)

VALUE是屬性值,當它低於 時THRESH,驅動器正準備要求更換。(並非所有屬性都有門檻值,就像我的溫度一樣)

至於什麼是熱的,什麼不是,這真的取決於驅動器。Google有一篇關於驅動器故障率的過時論文,其中指出 40°C 左右的驅動器故障率最低(至少對於Google和 2007 年而言)。我記得讀過另一篇論文(現在找不到),上面說高溫對硬碟來說不是問題。急劇而頻繁的溫度變化會導致磁碟更快地發生故障。因此,只要驅動器溫度非常穩定(您可以使用類似munin的東西進行監控),就應該沒問題。

smartd正在報告屬性的任何變化。這並不意味著有什麼問題。

引用自:https://serverfault.com/questions/693163