Hpc

在伺服器中使用消費級(高端)GPU 的注意事項?

  • January 8, 2021

動機:

首先,即使我有一些電腦科學、軟體開發和伺服器 Linux 管理方面的知識,我也從未研究過伺服器硬體,而且我完全是一個“新手”。對不起,如果這個問題對你們大多數人來說是微不足道的。

我正在開發一個具有相當密集(單點)計算需求的軟體,為了達到所需的 TFlops,我選擇了 OpenCL(2.1)框架並在高端消費 AMD 顯卡上執行大部分計算,主要使用 CPU驅動 GPU(Linux 作業系統)。我現在希望通過多台機器來擴展它。

看看如何組織這些機器,很快就發現標準(消費)ATX 塔並不理想:每個品牌都有自己的機箱形狀,它們基本上不能在 19 英寸機箱中輕鬆方便地堆疊,具有良好的冷卻氣流、共享APC、管理線纜等。

帶著這個目標,我開始尋找一個帶有伺服器的機櫃,並發現:

  • 為 Instinct/Tesla 等 HPC 設計的 GPU 的成本比消費級 GPU 高出一個數量級,主要是為了帶來雙浮點,這在消費級設備上是“慢”的(因為它們可以以這個價格賣給企業)。
  • 即使使用這些 GPU,也需要 PCI-Express 墊片
  • 支持 GPU 的伺服器最多只能支持 2 個插槽的顯卡(目前的高端消費 GPU 通常是 3 個插槽)。
  • 我發現 ATX 3U 或 4U 機箱專為 19" 機櫃設計。但是,嘿!安裝其中一個使用消費類硬體將排除 ECC、多個 APC 等。

問題:

購買旨在託管 1 個或 2 個消費級 GPU 的伺服器需要考慮什麼?

我已經花了很多時間在網上尋找,但無法對這個問題有一個基本的了解,例如,以下是我想到的一些想法:

  • 這是個好主意,甚至可能嗎?一些文本(網頁)抱怨難以使這些系統協同工作、不兼容、驅動程序問題等。
  • 2U-3U伺服器機箱能裝3槽顯卡嗎?還是兩個?
  • 一些伺服器(例如 Gigabyte Gxxx)是專門為帶有 GPU 的 HPC 設計的,與標準(例如)HPE Proliant、IBM .. 伺服器相比,這真的會帶來什麼不同嗎?
  • 大多數伺服器是否支持消費級 GPU 卡所需的 PCI-express v4 x16?
  • 伺服器機箱中的氣流是否與消費級 GPU 卡兼容(通常底部 3 個通風口)
  • 電源連接有問題嗎?

我們在我們的伺服器中使用了很多 GPU——但只有一條規則要遵循;

僅使用製造商為您的確切伺服器型號明確支持的元件。

不要打破這個規則。

引用自:https://serverfault.com/questions/1049008