Dask依赖图中的容错功能

时间:2019-02-12 19:38:59

标签: python dask dask-distributed

我有一个小型集群,可以使用以下方式在其上部署dask图:

from dask.distributed import Client
...
client = Client(f'{scheduler_ip}:{scheduler_port}', set_as_default=False)
client.get(workflow, final_node)

在工作流程中,我当然有很多并行运行的任务。但是,有时某个工人正在运行的模块中有错误。一旦该模块发生故障,它将立即返回到调度程序,然后调度程序将停止并行运行的其他工作(即使其他工作对此程序没有依赖性)。它阻止了他们的中游。

无论如何,有没有让其他人完成然后失败的事情,而不是立即将其关闭?

1 个答案:

答案 0 :(得分:1)

Client.get函数是全部或全部。您可能应该看一下期货界面。在这里,您将启动许多相互依赖的计算。可以完成的将完成。

请参见https://docs.dask.org/en/latest/futures.html