Ldap

錯誤的 LDAP 使用者 ID 映射到 Slurm 帳戶管理服務

  • November 9, 2020

我配置了一個 Slurm 頭節點,如下所示:

  • sssd聯繫 openLDAP
  • slurmctld///充當Slurm控制器和slurmdbd計算slurmd節點munged

ray.williamsLDAP 使用者在哪裡。它的 UID 可以映射到節點上。SSH 登錄工作正常。

$ id ray.williams
$ uid=10000(ray.williams) gid=10000(powerlifters) groups=10000(powerlifters)

當我將此使用者添加到 Slurm 記帳數據庫時,它不會抱怨該使用者不存在。

$ sacctmgr create account name=default
Associations
 A = default    C = hydra

$ sacctmgr create user name=ray.williams account=default
Adding User(s)
 ray.williams
Associations =
 U = ray.willi A = default    C = hydra
Non Default Settings

但是,UID 被錯誤地映射到4294967294,它看起來像一個無符號的 -1 ( https://www.suse.com/support/kb/doc/?id=000017244 )。這與我輸入了一個不存在的使用者名相同的 UID。無法sacctmgr在命令行上提供正確的 UID。

$ scontrol show assoc | grep ray.williams
UserName=ray.williams(4294967294) DefAccount=default DefWckey=(null) AdminLevel=Not Set
ClusterName=hydra Account=default UserName=ray.williams(4294967294) Partition= ID=4

因此,該使用者無法送出作業。我確認這只會影響 LDAP 使用者,因為本地使用者 ID 已正確映射。

$ su ray.williams
$ srun -A root -N4 -l /bin/hostname
srun: error: Unable to allocate resources: Invalid account or account/partition combination specified

日誌顯示作業被拒絕,可能是因為在 Slurm 會計數據庫中找不到 UID 10000。

$ cat /var/log/slurm/slurmd.log
[2020-11-09T17:05:47.010] job_submit.lua: [Rule 0/part] Default partition - job from uid 10000(ray.williams), setting default partition to 'pgrinux'
[2020-11-09T17:05:47.010] _job_create: invalid account or partition for user 10000, account 'default', and partition 'pgrinux'
[2020-11-09T17:05:47.010] _slurm_rpc_allocate_resources: Invalid account or account/partition combination specified

你知道我怎樣才能讓 Slurm 和 SSSD/LDAP 交換正確的使用者 ID 嗎?

非常感謝!

注意:為了更好地衡量,這裡是一些配置文件的片段,以防它們有用。

$ cat /etc/slurm/slurmd.conf
PartitionName=pgrinux      Nodes=d1p-test-grinux[01-05] Default=YES AllowGroups=ALL AllowAccounts=ALL
$ cat /etc/sssd/sssd.conf
[sssd]
domains = local.lan
config_file_version = 2
services = nss, pam
debug_level = 9

[pam]
pam_verbosity = 9

[domain/local.lan]
id_provider = ldap
auth_provider = ldap
cache_credentials = true
default_shell = /bin/bash
mkhomedir = false
ldap_access_order = filter
ldap_access_filter = (objectClass=posixAccount)
ldap_search_base = dc=local,dc=lan
ldap_uri = ldaps://d1p-test-ldap02
ldap_id_use_start_tls = false
ldap_tls_reqcert = never
$ getent passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
systemd-network:x:192:192:systemd Network Management:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
polkitd:x:999:998:User for polkitd:/:/sbin/nologin
rpc:x:32:32:Rpcbind Daemon:/var/lib/rpcbind:/sbin/nologin
tss:x:59:59:Account used by the trousers package to sandbox the tcsd daemon:/dev/null:/sbin/nologin
rpcuser:x:29:29:RPC Service User:/var/lib/nfs:/sbin/nologin
nfsnobody:x:65534:65534:Anonymous NFS User:/var/lib/nfs:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
chrony:x:998:995::/var/lib/chrony:/sbin/nologin
vagrant:x:1000:1000:vagrant:/home/vagrant:/bin/bash
vboxadd:x:997:1::/var/run/vboxadd:/bin/false
slurm:x:991:991:SLURM workload manager:/var/lib/slurm:/bin/bash
munge:x:801:801:MUNGE Uid 'N' Gid Emporium:/var/lib/munge:/sbin/nologin
mysql:x:27:27:MariaDB Server:/var/lib/mysql:/sbin/nologin
sssd:x:800:800:User for sssd:/:/sbin/nologin

解決方案原來是在getent passwd.

我更改了以下配置sssd

$ cat /etc/sssd/sssd.conf
[domain/local.lan]
enumerate = true

我刪除了使用者並再次添加了它們,並且它起作用了。

引用自:https://serverfault.com/questions/1041875