在 LAN 中的多台伺服器上使用像 Slurm 這樣的 HPC 管理器

August 22, 2020

我可以訪問一組通過 1Gb LAN 連接的伺服器，每個伺服器都有 40 多個核心和 Ubuntu 作業系統。他們都有一個共同的NAS。我在其中一些上安裝了 SLURM 並對其進行了配置，以便每個伺服器既是控制節點又是計算節點，並且伺服器不連接。所需的分析是生物資訊學的，並且受 CPU 限制，但文件為 GB。我的問題如下：
這不是計算集群，對嗎？將這些伺服器連結到單個集群需要什麼？
在此配置上使用 Slurm 等 HPC 管理器是否有效？數據將如何共享？他們確實有一個通用的 NAS，但是與本地文件相比，直接在 NAS 上執行任何計算都非常慢。
我理想的解決方案是將文件拉到本地機器（理想情況下不管它們的位置，但 NAS 可能是公共集線器）執行計算並可能返回輸出文件。這是一個不合理的要求還是一個已解決的問題？
提前致謝！

是的，那是一個計算集群。我有一個廣泛的定義，即多個計算節點負責相同的工作負載。具有多個執行計算工作者的主機的大型建構場符合條件。TOP500 名單上的龐大系統也是如此。
更重要的是，利用 slurm 的能力來管理多個節點。否則，一個只管理自己的控制器會相當複雜，因為與更簡單的系統相比，它的功能並不多。添加所有節點，並將它們劃分為分區。
請求多個節點的作業要求程序能夠感知多個節點，就像在 MPI 中一樣。對於正常的無意識程序，只需將請求保留到一個節點即可。
儲存，您需要設計一些東西來將文件發送到節點。通常，選項包括：
將文件複製到每個節點的本地儲存。(slurm sbcast)
跨多個節點的磁碟條帶化分佈式儲存。（光澤，頭孢）
安裝在每個節點上的高性能文件共享。（全快閃記憶體陣列服務於 NFS）

引用自：https://serverfault.com/questions/1030856

相關問答

如何在 SLURM 集群上設置僅互動式作業或僅批處理作業分區？

January 22, 2022

帶有“部分”頭節點的 SLURM

July 20, 2021

錯誤的 LDAP 使用者 ID 映射到 Slurm 帳戶管理服務

November 9, 2020

Slurm：某些 sacctmgr 命令的“連接被拒絕”

July 9, 2020

查詢已完成作業使用的峰值 GPU 記憶體

March 11, 2020

“CPU Minutes”到底是什麼意思？

January 7, 2019