Job-Scheduler

Slurm:如何找出給定節點未分配多少記憶體

  • November 6, 2013

我是 SLURM 的新手。我正在尋找一種舒適的方法,以查看節點/節點列表中有多少記憶體可用於我的 srun 分配。

我已經玩過 sinfo 和 scontrol 和 sstat,但它們都沒有在一個舒適的概述中為我提供我需要的資訊。

我想寫一個 shell 腳本,以便從 scontrol 獲取所有作業的所有欄位並總結它們。但必須有更簡單的方法。如果有人有提示或想法,那就太好了!

輸出的第 7 列sinfo -N -l將告訴您每個計算節點中安裝了多少記憶體。

$sinfo -N -l
Wed Nov  6 16:31:45 2013
NODELIST                NODES PARTITION       STATE CPUS    S:C:T MEMORY TMP_DISK WEIGHT FEATURES REASON              
node001                    1      Def*        idle    8    2:4:1  24150   920644    100 Xeon,X55 none  

該命令scontrol -o show nodes將告訴您每個節點上已經使用了多少記憶體。尋找AllocMem入口。(需要 Slurm 2.6.0 或更高版本)

$ scontrol -o show nodes | awk '{ print $1, $13, $14}'
NodeName=node001 RealMemory=24150 AllocMem=0

引用自:https://serverfault.com/questions/536681