有没有办法使用slurm监控群集中的cpu使用百分比。 例如,假设我有200个节点,并且我发送了一个使用所有这200个节点的mpi工作,可能只有一个节点被使用(真正计算东西),而另一个节点没有。 有没有一个选项告诉我 - 200个节点中的平均cpu负载,或每个cpu上的当前cpu负载?
编辑:在BlueGene机器上
感谢。
答案 0 :(得分:0)
slurm命令:
sstat "jobid"
替换" jobid"用你的整数jobid。
它会返回几个列,包括' AveCPU' &安培; ' AveDiskRead'