Memory

空調故障後的硬體檢查

  • December 26, 2020

我們有一夜空調故障。我們發現伺服器機房的溫度已達到約 110-115°F (43-46°C)。我們關閉了所有尚未安裝的電源並修復了空調。

現在它已經修好了,我擔心長時間暴露在高溫下會造成損壞。我想對我們所有的機器進行一系列測試,以確保機器在我們重新依賴它們之前沒有損壞。我的計劃如下:

  • 執行 memtest86 以檢查是否有任何 DIMM 損壞(已經這樣做並且基本上沒有發現任何問題)
  • 執行 Prime95 以檢查是否有任何 CPU 損壞(可能會以意外中斷或硬體故障的形式出現)
  • 在所有磁碟上執行smartctl -abadblocks檢查任何異常的輸出

這份清單感覺有點薄,我不相信這些都能正確地鍛煉硬體,以確保我們將來不會遇到任何由熱引起的問題。

這組測試是否足夠?還有其他我應該考慮的嗎?

46.5攝氏度。

不要從檢查開始,而是閱讀主要伺服器的文書工作。

你會發現這很可能在他們的工作溫度範圍內。不是開玩笑。硬體是為多種目的而設計的,而且地球上有很多很熱的地方——你真的想在一個非常炎熱的日子告訴德克薩斯州的一個人不,他需要空調嗎?

哎呀,只是檢查我得到的伺服器:

https://supermicro.com/Aplus/system/1U/1123/AS-1123US-TR4.cfm

溫度範圍為 95 華氏度。而且 CPU 會受到溫度限制 - 如果有的話,它們會關閉。

您應該檢查光碟的完整性並確保備份正常 - CPU 不會那麼容易成本和損壞。自從 15 年左右以來,每個人都安裝了熱節流電路。我遇到了幾次 CPU 冷卻器故障,導致 CPU 快速關閉了主機板。

引用自:https://serverfault.com/questions/925447