如何检查为什么/为什么我的脚本排入队列?

时间:2018-07-17 19:16:51

标签: slurm

我正在使用slurm,并且试图弄清楚为什么我的脚本未运行/为什么排队。根据我的说法,应该有足够的资源来运行,但是不赞成。我该如何检查?

命令已运行:

squeue -o "%22i,%.12j,%.8u,%25R,%22b,%.7m,%6q,%6Q,%t,%V,%.S,%e,%l,%L,%M"

输出:

JOBID                 ,        NAME,    USER,NODELIST(REASON)         ,GRES                  ,MIN_MEM,QOS   ,PRIORI,ST,SUBMIT_TIME,START_TIME,END_TIME,TIME_LIMIT,TIME_LEFT,TIME
1843_[21-32]          ,flatness_exp,me,(Resources)              ,gpu:1                 ,  3000M,(null),429490,PD,2018-07-17T15:01:12,2018-07-20T13:31:12,2018-07-20T13:31:12,2-22:30:00,2-22:30:00,0:00

但是有哪些资源?记忆? GPU内存?中央处理器? GPU?到底是什么,我想要的是,确切是什么

1 个答案:

答案 0 :(得分:1)

squeue命令的输出中,您将找到一个名为NODELIST(REASON)的字段。 括号中的代码与您未启动工作的原因相对应。

在您的示例中,由于资源,该作业无法执行。而且,如果我们在squeue documentation中检查该代码,则会发现:

The job is waiting for resources to become available.

在该documentation中,您会找到其他原因码的描述。

相关问题