Linux
Slurm:某些 sacctmgr 命令的“連接被拒絕”
我有一個現有的 slurm 集群啟動並執行,但截至今天沒有更改配置,當我執行某些
sacctmgr
命令並slurmdbd
崩潰時出現錯誤:$ sacctmgr list associations sacctmgr: error: slurm_persist_conn_open_without_init: failed to open persistent connection to slurm.domain.com:6819: Connection refused sacctmgr: error: slurmdbd: Getting response to message type 1410 sacctmgr: error: slurmdbd: DBD_GET_ASSOCS failure: Connection refused Error with request: Connection refused
節目
systemctl status
:Jul 03 10:01:46 slurm systemd[1]: slurmdbd.service: Main process exited, code=killed, status=11/SEGV Jul 03 10:01:46 slurm systemd[1]: slurmdbd.service: Failed with result 'signal'.
slurmdbd.log 說:
[2020-07-03T10:01:45.816] debug2: Opened connection 9 from 127.0.0.1 [2020-07-03T10:01:45.817] debug: REQUEST_PERSIST_INIT: CLUSTER:slurmcluster VERSION:8192 UID:0 IP:127.0.0.1 CONN:9 [2020-07-03T10:01:45.817] debug2: acct_storage_p_get_connection: request new connection 1 [2020-07-03T10:01:45.861] debug2: DBD_FINI: CLOSE:0 COMMIT:0 [2020-07-03T10:01:45.862] debug4: got 0 commits [2020-07-03T10:01:45.949] debug2: DBD_GET_ASSOCS: called [2020-07-03T10:01:45.950] debug4: 9(as_mysql_assoc.c:2032) query call get_parent_limits('assoc_table', 'root', 'slurmcluster', 0); select @par_id, @mj, @msj, @mwpj, @mtpj, @mtpn, @mtmpj, @mtrm, @def_qos_id, @qos, @delta_qos;
但是其他命令有效(崩潰後需要重新啟動 slurmdbd):
$ sacctmgr show cluster Cluster ControlHost ControlPort RPC Share GrpJobs GrpTRES GrpSubmit MaxJobs MaxTRES MaxSubmit MaxWall QOS Def QOS ---------- --------------- ------------ ----- --------- ------- ------------- --------- ------- ------------- --------- ----------- -------------------- --------- slurmclus+ 127.0.0.1 6817 8192 1 normal
我可以連接到數據庫並執行命令。另外,我可以通過
telnet slurm.domain.com 6819
.我正在使用標準 Ubuntu 18.04 儲存庫中的 slurm 17.11.2 和 MySQL 5.7。
事實證明,問題是無人值守的升級。其中 MySQL 從 更新
5.7.29
到5.7.30
. 一切都適用於 MySQL5.7.29
。更改日誌不包含明顯的內容,但根據slurm -users 郵件列表,這就是問題所在:似乎(至少對於 mysql 過程 get_parent_limits)mySQL 5.7.30 返回 NULL,其中 mySQL 5.7.29 返回一個空字元串。