Memory
空調故障後的硬體檢查
我們有一夜空調故障。我們發現伺服器機房的溫度已達到約 110-115°F (43-46°C)。我們關閉了所有尚未安裝的電源並修復了空調。
現在它已經修好了,我擔心長時間暴露在高溫下會造成損壞。我想對我們所有的機器進行一系列測試,以確保機器在我們重新依賴它們之前沒有損壞。我的計劃如下:
- 執行 memtest86 以檢查是否有任何 DIMM 損壞(已經這樣做並且基本上沒有發現任何問題)
- 執行 Prime95 以檢查是否有任何 CPU 損壞(可能會以意外中斷或硬體故障的形式出現)
- 在所有磁碟上執行
smartctl -a
並badblocks
檢查任何異常的輸出這份清單感覺有點薄,我不相信這些都能正確地鍛煉硬體,以確保我們將來不會遇到任何由熱引起的問題。
這組測試是否足夠?還有其他我應該考慮的嗎?
46.5攝氏度。
不要從檢查開始,而是閱讀主要伺服器的文書工作。
你會發現這很可能在他們的工作溫度範圍內。不是開玩笑。硬體是為多種目的而設計的,而且地球上有很多很熱的地方——你真的想在一個非常炎熱的日子告訴德克薩斯州的一個人不,他需要空調嗎?
哎呀,只是檢查我得到的伺服器:
https://supermicro.com/Aplus/system/1U/1123/AS-1123US-TR4.cfm
溫度範圍為 95 華氏度。而且 CPU 會受到溫度限制 - 如果有的話,它們會關閉。
您應該檢查光碟的完整性並確保備份正常 - CPU 不會那麼容易成本和損壞。自從 15 年左右以來,每個人都安裝了熱節流電路。我遇到了幾次 CPU 冷卻器故障,導致 CPU 快速關閉了主機板。