Monitoring

HDD SMART 數據的可靠性如何?

  • January 31, 2022

根據SMART數據,您可以判斷磁碟的健康狀況,至少是這樣的想法。例如,如果我sudo smartctl -H /dev/sda在我的 ArchLinux 筆記型電腦上執行,它會說硬碟驅動器通過了自檢,並且基於此它應該是“健康的”。

我的問題是這些資訊的可靠性,或者更具體地說:

  • 如果根據 SMART 數據,該磁碟是健康的,儘管如此,磁碟突然發生故障的機率是多少?這假設故障不是由於某些無法預測的災難性事件造成的,例如筆記型電腦掉在地板上導致驅動器磁頭撞擊磁碟。
  • 如果 SMART 數據沒有說明磁碟狀況良好,那麼磁碟在一段時間內出現故障的機率是多少?是否有可能出現誤報,這些情況有多普遍?

當然,無論如何我都會保留備份。我主要是好奇。

以我的經驗(執行伺服器 20 年,在我處理過的所有伺服器中必須處理大約 5.000 個磁碟)SMART 很有用,但不是靈丹妙藥。

如果您收到 SMART 錯誤,請盡快更換磁碟。很有可能在 4-8 週後磁碟會出現嚴重問題。(在這方面經常提到的 Google 研究與我的個人經驗非常相關。)

通常,在磁碟變得真正有問題之前,您有一周或 2 週的時間。

如果您根本沒有收到 SMART 錯誤,則磁碟仍然會在沒有任何警告的情況下發生故障,儘管這在伺服器中非常罕見。我看到每年可能有 3 或 4 個這樣的案例。雖然我們每月大約 25 次因為 SMART 錯誤而更換驅動器。

這可能是因為伺服器磁碟通常是 RAID 陣列的一部分,並在整個磁碟上看到連續的讀/寫模式。這會定期“執行”(並檢查)磁碟的每個部分。

如果伺服器在連續執行數月/數年後關閉了一段時間,則磁碟故障(沒有先前的警告)的最大可能性是在啟動時。

在消費類設備(非伺服器、筆記型電腦/台式機驅動器)中,我看到很多磁碟出現讀取錯誤,但不知何故並沒有出現在 SMART 數據中,即使 Windows 在事件日誌中記錄了這些錯誤。(SMART 僅在從 Windows 執行完整的 chkdsk 後才記錄它們。)

這使我相信,在許多消費者驅動器中,SMART 門檻值非常低。這可能是(大 IF)有意在這個殘酷的業務中保持低 RMA 數量。

許多消費者無論如何都不會注意到偶爾出現的壞塊,直到為時已晚。(有多少消費者知道在哪裡可以找到事件日誌?那是您可以在 Windows 中看到磁碟錯誤的唯一地方。)

根據我的經驗,如果消費者磁碟有問題(SMART 或其他),請複制它的數據並立即更換。當它給出這些錯誤時,它已經死了。

引用自:https://serverfault.com/questions/519726