Linux

在 LAN 中的多台伺服器上使用像 Slurm 這樣的 HPC 管理器

  • August 22, 2020

我可以訪問一組通過 1Gb LAN 連接的伺服器,每個伺服器都有 40 多個核心和 Ubuntu 作業系統。他們都有一個共同的NAS。我在其中一些上安裝了 SLURM 並對其進行了配置,以便每個伺服器既是控制節點又是計算節點,並且伺服器不連接。所需的分析是生物資訊學的,並且受 CPU 限制,但文件為 GB。我的問題如下:

  1. 這不是計算集群,對嗎?將這些伺服器連結到單個集群需要什麼?
  2. 在此配置上使用 Slurm 等 HPC 管理器是否有效?數據將如何共享?他們確實有一個通用的 NAS,但是與本地文件相比,直接在 NAS 上執行任何計算都非常慢。

我理想的解決方案是將文件拉到本地機器(理想情況下不管它們的位置,但 NAS 可能是公共集線器)執行計算並可能返回輸出文件。這是一個不合理的要求還是一個已解決的問題?

提前致謝!

是的,那是一個計算集群。我有一個廣泛的定義,即多個計算節點負責相同的工作負載。具有多個執行計算工作者的主機的大型建構場符合條件。TOP500 名單上的龐大系統也是如此。

更重要的是,利用 slurm 的能力來管理多個節點。否則,一個只管理自己的控制器會相當複雜,因為與更簡單的系統相比,它的功能並不多。添加所有節點,並將它們劃分為分區。

請求多個節點的作業要求程序能夠感知多個節點,就像在 MPI 中一樣。對於正常的無意識程序,只需將請求保留到一個節點即可。

儲存,您需要設計一些東西來將文件發送到節點。通常,選項包括:

  • 將文件複製到每個節點的本地儲存。(slurm sbcast)
  • 跨多個節點的磁碟條帶化分佈式儲存。(光澤,頭孢)
  • 安裝在每個節點上的高性能文件共享。(全快閃記憶體陣列服務於 NFS)

引用自:https://serverfault.com/questions/1030856