Hpc
帶有“部分”頭節點的 SLURM
我正在嘗試以典型的方式在小型 ubuntu 18.04 HPC 集群上安裝 SLURM 和 NFS,例如配置控制器 (slurmctld) 和客戶端 (slurmd) 以及共享目錄等。我很好奇的是,有沒有辦法設置它以便在頭節點的一部分上有一個控制器,並且頭節點中的其他驅動器由資源分區常式使用,就像其他節點一樣?有沒有辦法使用 SLURM 配置文件來完成這個?
我本質上是在問如果控制器只做輕量級的工作,如何最大化資源。
謝謝你,乾杯!
您正在嘗試將頭節點用作計算節點。這在小型集群上是完全正常的,甚至在將 SLURM 作為隊列系統的工作站上,將其作為一種更簡單的方式來將作業排隊或在有權訪問該工作站的一組使用者之間共享計算能力。
為此,只需
slurmd
在執行slurmctld
./etc/slurm/slurm.conf
請記住使用計算規範添加相應的節點和分區條目。例如,你應該有這樣的東西:ClusterName=Cloyster ControlMachine=charizard.cluster.example.com SlurmUser=slurm SlurmctldPort=6817 SlurmdPort=6818 AuthType=auth/munge StateSaveLocation=/var/spool/slurm/ctld SlurmdSpoolDir=/var/spool/slurm/d SwitchType=switch/none MpiDefault=none SlurmctldPidFile=/var/run/slurmctld.pid SlurmdPidFile=/var/run/slurmd.pid ProctrackType=proctrack/pgid SlurmctldTimeout=300 SlurmdTimeout=300 InactiveLimit=0 MinJobAge=300 KillWait=30 Waittime=0 SchedulerType=sched/backfill SelectType=select/cons_tres SelectTypeParameters=CR_Core SlurmctldDebug=info SlurmctldLogFile=/var/log/slurmctld.log SlurmdDebug=info SlurmdLogFile=/var/log/slurmd.log JobCompType=jobcomp/none TaskPlugin=task/affinity PropagateResourceLimitsExcept=MEMLOCK AccountingStorageType=accounting_storage/filetxt Epilog=/etc/slurm/slurm.epilog.clean SlurmctldParameters=enable_configless ReturnToService=2 NodeName=charizard Sockets=2 CoresPerSocket=64 ThreadsPerCore=2 State=UNKNOWN PartitionName=execution Nodes=charizard Default=YES MaxTime=720:00:00 State=UP Oversubscribe=EXCLUSIVE
觀察 NodeName 具有控制機器的主機名。