什麼可以解釋超執行緒使伺服器癱瘓
去年,我委託了兩台全新的伺服器,但它們的性能使它們無法使用。兩台伺服器都是帶有 1 個處理器的戴爾 R620 伺服器。一個有 6 個核心,另一個有 8 個核心。一個有 SLES 11SP3 和 Oracle,另一個有 Windows 2008 R2。
從我安裝作業系統的那一刻起,Windows 伺服器就變得遲緩了。我對它從啟動到應用程序使用的一切執行速度感到非常震驚,但在 CPU、磁碟、記憶體等任何東西的性能計數器中卻沒有表現出任何明顯的症狀。我無法量化緩慢,但我會描述它,就好像我在 10 年前或更早的機器上安裝了作業系統一樣。我終於通過擺弄 BIOS 設置並禁用超執行緒來修復它。我一關掉它,伺服器就起飛了。我估計性能會提高 10 倍。
Linux 伺服器更奇怪。有了它,伺服器最初可以很好地工作 3 或 4 週。然後,一天晚上,在沒有任何明顯觸發的情況下,CPU 使用率突然從大約 4% 的持平線變為瘋狂的上下 20-60%。到處都是。與此同時,Oracle 連接時間從 100 毫秒變為 500 毫秒。Oracle 的整體性能非常糟糕,以至於我們的生產流程受到了影響,而且我們沒有對數據庫施加太大的負載。DBA 和我花了 12 多個小時,卻找不到任何可以解釋的問題。我使用 top 和 Gnome 系統監視器查看了系統,CPU 跟踪從 0-100% 上下完全混亂。我們重新啟動了幾次,啟動時間可能是正常的 2-3 倍。當我絕望地在 BIOS 中禁用 HT 時,問題終於得到解決。魔法。一切都解決了。
我的問題是,其他人是否經歷過這種情況?我用Google搜尋了很多,人們談論相對較小的性能影響,無論好壞,但與我所看到的完全不同。我現在完全害怕 HT,並且一直將它設為在新版本中禁用它的預設設置。還有什麼我不明白的可能導致這種情況的嗎?
這可能是實際有缺陷的硬體嗎?
編輯:正如 shodanshok 在下面建議的那樣,這實際上可能是一個電源配置問題。今天問題再次出現,即使禁用了 HT。我進入 BIOS 設置,在“系統配置文件”下找到了省電設置。它預設為“每瓦性能”。我改為“性能”,問題又消失了。很難確認這是最終修復,僅重新啟動可能會破壞問題,但我對此感覺很好。一會兒我會再跟進。
EDIT2:確認。我至少又看到過兩次這個問題,但是在另外兩台伺服器上。在所有情況下,它都是通過將“系統配置文件”更改為“性能”來修復的。進行更改後,我沒有在任何伺服器上看到此問題再次出現。
在最新的 DELL 伺服器上,我發現基於 BIOS 的節能邏輯非常糟糕(如果不是完全損壞的話)。嘗試禁用它,將伺服器設置為最高性能,並讓節能由作業系統控制,而不是 BIOS。
然後嘗試重新啟用超執行緒。