PBS自动重启失败的作业

时间:2017-01-25 04:22:29

标签: pbs

我使用PBS作业数组提交了许多工作。有时,少数工作被搞砸了,而且没有成功运行。有没有办法自动检测失败的作业并重新启动它们?

1 个答案:

答案 0 :(得分:1)

pbs_server支持automatic_requeue_exit_code

  

由admin定义的退出代码,它告诉pbs_server重新排队作业,而不是将其视为已完成。这允许用户添加一些可以有意义地运行作业的附加检查,如果没有,则作业脚本将退出并指定要重新排队的代码。

在序言失败的情况下,还有一项重新排列作业的规定(参见序言/结语脚本文档)。

可能有更复杂的方法,但它们不属于内置Torque选项范围。

相关问题