Centos

Infiniband 驅動程序:包括 OFED 或發行版?

  • April 29, 2022

我正在建立一個帶有 infiniband 網路的 Linux 集群,而且我是 infiniband 世界的新手,任何建議都非常受歡迎!

我們目前正在使用 Mellanox OFED 驅動程序,但我們的 infiniband 卡很舊,並且無法被最新的 MOFED 驅動程序辨識。所以我想知道為什麼不使用發行版提供的驅動程序(執行 CentOS7)。

使用一個或另一個會有什麼不同?我應該期待任何性能下降嗎?

謝謝

通過不使用供應商 OFED 發行版,在這種情況下 Mellanox OFED 不僅會降低性能,還會出現功能不足和許多穩定性問題。

Infiniband 不像乙太網那樣堅如磐石,Infiniband 的主要目標是提供低延遲結構,而不僅僅是每個人通常認為的高吞吐量網路。

收件箱驅動程序(這就是 Mellanox 呼叫發行版中隨附的 OFED 發行版的方式)充其量是不可靠的,如果您執行的卡比 Connect-X4 更早,如果需要,您在執行 IPoIB 時會遇到麻煩,只需保持啟用即可最終會導致核心恐慌。性能很差,網路不可靠。

有一些替代方案,首先是 MLNX OFED 4.9,它是支持舊卡(如 Connect-X3)的 LTS 版本。我會堅持使用它,因為它受到支持並將長期支持。

不同之處在於對以下硬體和技術的支持:

  • ConnectX-3 專業版
  • 連接X-3
  • 連接-IB
  • RDMA 實驗動詞庫 (mlnx_lib)

從這裡下載:https ://www.mellanox.com/products/infiniband-drivers/linux/mlnx_ofed

如果 Mellanox OFED 的 LTS 版本不適合您,另一種解決方案是遷移到 Oracle Linux,採用 UEK(Unbreakable Enterprise Kernel)並使用其 RDMA 發行版。至少 Oracle 測試了這個 OFED 版本,他們的 Exadata 產品使用了它。這裡有可用的文件:https ://docs.oracle.com/en/operating-systems/uek/6/relnotes6.2/ol_instav.html#uek6_install_rdma

引用自:https://serverfault.com/questions/1048740