更改应用于dask包的操作顺序

时间:2018-01-11 18:30:13

标签: dask

我正在使用一个dask包来处理从一组实验中收集的跟踪数据处理的并行化。每个实验的数据文件的路径都转换为自定义对象,我对此类数据执行的常见操作是对象方法。

每个对象都有一个与特定实验相关联的标识号。在程序中的某个时刻,我想使用此ID号来删除一些实验。在此任务图中,在从序列创建对象的位置,然后应用去除趋势和解卷积函数,然后执行删除操作。

dask task graph 由于实验标识号是静态的,因此可以在任务图中的任何步骤执行删除操作,并且最终结果将是相同的。然而,如果在其他计算成本高的方法之后执行移除操作,则结果将变得更慢,因为这些计算在最终被移除的对象上被不必要地执行。

有没有办法在包的任务图中的较早点插入操作,这样如果有人在任何时候添加删除操作,它将是第一个执行的操作?

1 个答案:

答案 0 :(得分:1)

而不是使用dask包你可能想看看dask延迟,这可能会给你更多的灵活性:

http://dask.pydata.org/en/latest/delayed.html

如果您真的想直接使用任务图,那么您应该阅读图表规范

http://dask.pydata.org/en/latest/spec.html