Hpc

帶有“部分”頭節點的 SLURM

  • July 20, 2021

我正在嘗試以典型的方式在小型 ubuntu 18.04 HPC 集群上安裝 SLURM 和 NFS,例如配置控制器 (slurmctld) 和客戶端 (slurmd) 以及共享目錄等。我很好奇的是,有沒有辦法設置它以便在頭節點的一部分上有一個控制器,並且頭節點中的其他驅動器由資源分區常式使用,就像其他節點一樣?有沒有辦法使用 SLURM 配置文件來完成這個?

我本質上是在問如果控制器只做輕量級的工作,如何最大化資源。

謝謝你,乾杯!

您正在嘗試將頭節點用作計算節點。這在小型集群上是完全正常的,甚至在將 SLURM 作為隊列系統的工作站上,將其作為一種更簡單的方式來將作業排隊或在有權訪問該工作站的一組使用者之間共享計算能力。

為此,只需slurmd在執行slurmctld. /etc/slurm/slurm.conf請記住使用計算規範添加相應的節點和分區條目。例如,你應該有這樣的東西:

ClusterName=Cloyster
ControlMachine=charizard.cluster.example.com
SlurmUser=slurm
SlurmctldPort=6817
SlurmdPort=6818
AuthType=auth/munge
StateSaveLocation=/var/spool/slurm/ctld
SlurmdSpoolDir=/var/spool/slurm/d
SwitchType=switch/none
MpiDefault=none
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmdPidFile=/var/run/slurmd.pid
ProctrackType=proctrack/pgid
SlurmctldTimeout=300
SlurmdTimeout=300
InactiveLimit=0
MinJobAge=300
KillWait=30
Waittime=0
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurmd.log
JobCompType=jobcomp/none
TaskPlugin=task/affinity
PropagateResourceLimitsExcept=MEMLOCK
AccountingStorageType=accounting_storage/filetxt
Epilog=/etc/slurm/slurm.epilog.clean
SlurmctldParameters=enable_configless

ReturnToService=2
NodeName=charizard Sockets=2 CoresPerSocket=64 ThreadsPerCore=2 State=UNKNOWN
PartitionName=execution Nodes=charizard Default=YES MaxTime=720:00:00 State=UP Oversubscribe=EXCLUSIVE

觀察 NodeName 具有控制機器的主機名。

引用自:https://serverfault.com/questions/1048279