HDD SMART 數據的可靠性如何？

January 31, 2022

根據SMART數據，您可以判斷磁碟的健康狀況，至少是這樣的想法。例如，如果我sudo smartctl -H /dev/sda在我的 ArchLinux 筆記型電腦上執行，它會說硬碟驅動器通過了自檢，並且基於此它應該是“健康的”。
我的問題是這些資訊的可靠性，或者更具體地說：
如果根據 SMART 數據，該磁碟是健康的，儘管如此，磁碟突然發生故障的機率是多少？這假設故障不是由於某些無法預測的災難性事件造成的，例如筆記型電腦掉在地板上導致驅動器磁頭撞擊磁碟。
如果 SMART 數據沒有說明磁碟狀況良好，那麼磁碟在一段時間內出現故障的機率是多少？是否有可能出現誤報，這些情況有多普遍？
當然，無論如何我都會保留備份。我主要是好奇。

以我的經驗（執行伺服器 20 年，在我處理過的所有伺服器中必須處理大約 5.000 個磁碟）SMART 很有用，但不是靈丹妙藥。
如果您收到 SMART 錯誤，請盡快更換磁碟。很有可能在 4-8 週後磁碟會出現嚴重問題。（在這方面經常提到的 Google 研究與我的個人經驗非常相關。）
通常，在磁碟變得真正有問題之前，您有一周或 2 週的時間。
如果您根本沒有收到 SMART 錯誤，則磁碟仍然會在沒有任何警告的情況下發生故障，儘管這在伺服器中非常罕見。我看到每年可能有 3 或 4 個這樣的案例。雖然我們每月大約 25 次因為 SMART 錯誤而更換驅動器。
這可能是因為伺服器磁碟通常是 RAID 陣列的一部分，並在整個磁碟上看到連續的讀/寫模式。這會定期“執行”（並檢查）磁碟的每個部分。
如果伺服器在連續執行數月/數年後關閉了一段時間，則磁碟故障（沒有先前的警告）的最大可能性是在啟動時。
在消費類設備（非伺服器、筆記型電腦/台式機驅動器）中，我看到很多磁碟出現讀取錯誤，但不知何故並沒有出現在 SMART 數據中，即使 Windows 在事件日誌中記錄了這些錯誤。（SMART 僅在從 Windows 執行完整的 chkdsk 後才記錄它們。）
這使我相信，在許多消費者驅動器中，SMART 門檻值非常低。這可能是（大 IF）有意在這個殘酷的業務中保持低 RMA 數量。
許多消費者無論如何都不會注意到偶爾出現的壞塊，直到為時已晚。（有多少消費者知道在哪裡可以找到事件日誌？那是您可以在 Windows 中看到磁碟錯誤的唯一地方。）
根據我的經驗，如果消費者磁碟有問題（SMART 或其他），請複制它的數據並立即更換。當它給出這些錯誤時，它已經死了。

引用自：https://serverfault.com/questions/519726

HDD SMART 數據的可靠性如何？

相關問答

無法從 HDD 獲取任何 SMART 或溫度數據

SMARTd / smartmontools 的最佳 Nagios 外掛？

使用 smartd 監控 eSATA 硬碟？

如何使用 SmartCTL 從 RAID 獲取硬碟狀態以進行監控？

此 SMART 結果是否表明全新驅動器？

相對較新的 WD Red Pro 產生 ATA 狀態：41 (DRDY ERR)，錯誤：FreeBSD 12.2 上的 40 (UNC)