重新启动后自动启动计算上的`slurmd`服务

时间:2020-01-03 14:35:27

标签: systemd slurm

我正在呼叫scontrol reboot <nodename>来重新启动SLURM群集中的计算节点。

重新引导通常超时(从SLURM看),并且节点设置为状态“ DOWN”。 (RESUME_TIMEOUT设置为300)。

这大概是因为slurmd服务在启动后不会自动启动。
默认情况下,该服务为“禁用”:

[root@c1 ~]# systemctl status slurmd
● slurmd.service - Slurm node daemon
   Loaded: loaded (/usr/lib/systemd/system/slurmd.service; disabled; vendor preset: disabled)
   Active: inactive (dead)

使用systemctl enable slurmd激活它不会在下一次重新启动后持续,然后该服务再次被“禁用”。
我认为这是因为更改不会在用于引导的映像中发生。

如何在计算上启用slurmd服务,使其在启动时启动并且scontrol reboot有效?

2 个答案:

答案 0 :(得分:1)

我通过OpenHPC邮件列表收到了来自AntanasBudriūnas的回复,该邮件已解决了该问题。

(execute on master node)
# chroot /<path>/<to>/<cnode>/<image>
# systemctl enable slurmd
# exit

答案 1 :(得分:0)

这可能不是推荐的方法,但是我在工作中设置了一个小型集群,而修复它的方法是使用cronjob:

@reboot /usr/bin/scontrol update nodename=[put hostname here] state=resume