Question

我正试图在slurm管理的研究集群上运行dask。

使用传统的sbatch脚本启动作业正在工作。但是当我做的时候：

from dask_jobqueue import SLURMCluster
cluster = SLURMCluster(cores=12, memory='24 GB', processes=1, interface='ib0')
cluster.scale(1)

最后一步返回：

找不到记录器“ dask_jobqueue.core”的处理程序

运行squeue时，没有任何作业。

All the tests正在通过。使用LocalCluster（）在登录节点上确实有效。

这些是python 2.7的软件包版本：

dask                      0.18.2                     py_0    conda-forge
dask-core                 0.18.2                     py_0    conda-forge
dask-jobqueue             0.3.0                      py_0    conda-forge
distributed               1.22.0                   py27_0    conda-forge

有什么线索可以找吗？

Answer 1

我建议使用SLURM调查作业的状态。

他们在跑步吗？还是他们陷入了队列？
它们运行正常吗？日志怎么说？

dask-jobqueue无法在Slurm群集上启动任何工作程序

1 个答案: