dask-jobqueue无法在Slurm群集上启动任何工作程序

时间:2018-08-01 17:41:27

标签: dask slurm dask-distributed

我正试图在slurm管理的研究集群上运行dask。

使用传统的sbatch脚本启动作业正在工作。 但是当我做的时候:

from dask_jobqueue import SLURMCluster
cluster = SLURMCluster(cores=12, memory='24 GB', processes=1, interface='ib0')
cluster.scale(1)

最后一步返回:

  

找不到记录器“ dask_jobqueue.core”的处理程序

运行squeue时,没有任何作业。

All the tests正在通过。 使用LocalCluster()在登录节点上确实有效。

这些是python 2.7的软件包版本:

dask                      0.18.2                     py_0    conda-forge
dask-core                 0.18.2                     py_0    conda-forge
dask-jobqueue             0.3.0                      py_0    conda-forge
distributed               1.22.0                   py27_0    conda-forge

有什么线索可以找吗?

1 个答案:

答案 0 :(得分:0)

我建议使用SLURM调查作业的状态。

  1. 他们在跑步吗?还是他们陷入了队列?
  2. 它们运行正常吗?日志怎么说?
相关问题