替换简单的数据框分区

时间:2018-06-29 11:21:27

标签: dask

是否可以用我单独创建的,具有相同行数和相同结构的另一个dask数据帧分区替换一个dask数据帧分区? 如果是,怎么办?

行数是否可能不同?

1 个答案:

答案 0 :(得分:2)

您可以使用dd.concat函数将分区添加到Dask数据帧的开头或结尾。

您可以在数据框中的任何位置插入新分区,方法是切换到延迟的对象,将延迟的对象插入列表,然后再切换回dask数据框。

list_of_delayed = dask_df.to_delayed()
new_partition = dask.delayed(pd.read_csv)(filename)
list_of_delayed[i] = new_partition
new_dask_df = dd.from_delayed(list_of_delayed, meta=dask_df._meta)

它可以具有不同的行数,但是必须具有相同的列和dtypes