在Dask中

时间:2017-07-21 04:56:58

标签: dask airflow dask-distributed

我正在尝试使用Dask和Airflow实现数据管道。我希望能够向现有DAG添加/删除节点,类似于NodeJS中的中间件。我的想法是挑选Dataframe,以便下一步可以在pickle之前拾取并应用任何转换并传递给下一步。但是通过Dask并行处理,可以将下一个节点分配给任何工作者。 我在考虑在本地安排调度程序和一些工作人员。当我有一份大工作时,我可以解雇一些EC2工作人员来处理这项工作。 有什么建议吗?

1 个答案:

答案 0 :(得分:1)

您无需自行显式序列化数据以进行传输。 Dask将自动在节点之间移动数据,并根据需要序列化数据。