Lifecycle

我應該在空閒時關閉帶有 GPU 的混合伺服器嗎?

  • August 28, 2013

有一台帶有 2 個 CPU(Intel Xeon E5-2670、Sandy Bridge)和 1 個 AMD GPU(Tahiti XT Radeon HD 7970)的伺服器。還有SSD(系統和執行檔)和HDD(大數據)連接到這個伺服器。

有時伺服器在高負載下工作幾個小時。有時伺服器空閒幾個小時(空閒可能超過 8 小時)。

我聽到了兩種相反的觀點:

  1. 我不應該關閉我的伺服器,因為伺服器設計為無需關閉即可工作。數以千計的伺服器沒有關閉並連續工作一個月。
  2. 如果沒有負載,則應關閉伺服器。特別是因為 GPU。GPU 和 GPU 散熱器的資源有限,即使 GPU 負載不重,一直打開 GPU 也不好。

哪個意見是對的?我是否應該關閉此伺服器以顯著延長其使用壽命?

UPD 1我首先想知道 GPU 的不間斷工作。

UPD 2關於 GPU 選擇。這不僅僅是遊戲 GPU。Radeon 7970 在某些情況下擊敗了例如 Nvidia Kepler。見介紹

UPD 3有一種觀點認為,基於 GPU 的機器在 IDLE 上打開是非常糟糕的策略。我試圖理解是真實的觀點還是虛假的

空閒時關閉伺服器的優點:

  • 降低(零)功耗,從而節省電力和冷卻成本
  • 減少風扇的磨損,這是最有可能在 GPU(或伺服器的其餘部分)上死掉的東西,可能。
  • 如果您每天晚上都有預定的關機時間,那麼安排 Windows 更新會變得容易得多

空閒時關閉伺服器的缺點:

  • 電機(風扇和旋轉驅動器)更可能無法旋轉而不是無法繼續旋轉
  • 如果半夜有工作要做,伺服器不可用
  • 組件壓力 - 正在執行的伺服器和關閉的伺服器之間存在很大的溫差(尤其是在空調房中)。溫度循環會導致金屬每次膨脹和收縮,最終會磨損零件。
  • 軟體和作業系統問題更有可能在啟動時發生。也許最後一批 Windows 更新搞砸了,或者你的引導程序損壞了,等等。當然,這些都會在你下次重新啟動時出現,但至少你不必每天擔心它們,並在早上 9 點大家都進來之前趕在早上 8 點 50 分把它們修好。

大多數係統中只有風扇和硬碟驅動器具有電機。硬碟電機受到良好的環境保護,但風扇暴露在空氣中的所有灰塵中。因此,與其他元件相比,它們磨損得很快。這就是為什麼在大多數伺服器中它們是可熱插拔的——您可以在不關閉伺服器的情況下更換它們。還有比實際需要更多的風扇,因此單個風扇故障不會導致系統過熱。

但是,這並不意味著關閉它們一定是一件好事。大多數開始磨損的風扇一旦加快速度就可以正常工作,但啟動時遇到麻煩。因此,當伺服器重新打開時,它們將根本無法啟動,但如果一直保持打開狀態,它們可能會繼續執行。

關於顯卡的具體想法:

  • 您使用的顯卡適用於高端遊戲系統。AMD 的FirePro系列影片卡專為伺服器使用而設計。
  • 您會立即註意到的最大區別之一是只有最高端型號有風扇,其餘型號是被動冷卻的。有風扇的那個實際上有 3 個,它們比遊戲顯卡上的風扇更大,可能更耐用。
  • 伺服器顯卡也是為 24x7 工作負載而建構的,因此它們總體上具有更耐用的組件。

所有顯卡在空閒時都會減慢風扇速度並降低功耗。如果您的意思是“經過 1 萬億次計算,顯卡就會當機”,並不是“GPU 資源的限制”,但它上的風扇在出現故障之前執行的小時數肯定是有限的。在台式機方面,我有很多帶有專用顯卡的系統,在顯卡迷死之前,它們幾乎 24x7 執行了 2-3 年。在實際的伺服器機房環境中,希望與桌面環境相比,熱量和灰塵更少,我希望它可以在沒有維護的情況下執行很長時間。但以防萬一,我會為它訂購幾個替換風扇,這樣如果它死了,我就準備好一個。

結論

  • 即使伺服器處於空閒狀態,也要保持伺服器開啟,除非它一次將空閒數天或數週。即使那樣,我也會留下它。
  • 為該 GPU 挑選一些備用風扇。特別是因為當卡被認為過時時,它們將在一兩年內很難找到。
  • 考慮用等效的伺服器級替換 GPU。這是否是一個好的選擇取決於您的 GPU 處理需求和預算。您可能會決定只放置一張完整的備用卡以防萬一死了會更便宜。

引用自:https://serverfault.com/questions/532417