我想在群集中运行一些作业,但是如果花费的时间太长,我希望能够杀死这份工作。我可以优雅地从客户那里做到这一点,并且还有工作人员可以做更多的工作吗?
我的方案是,我想研究不同的机器学习分类器和超参数如何影响运行时间.fit()
。如果时间太长,我只想放弃任务,继续下一个任务。
我可以找到worker的PID,我可以使用kill()
从客户端发送信号,但是发送SIGINT,SIGHUP和SIGABRT似乎都无情地杀死了工作者,而不仅仅是打断它。我无法在工作程序代码中添加任何逻辑,因为它是.fit()
的原子调用,我想要时间和中断。