Question

我正在尝试比较存储在hdf5文件中的两个大型数据集。但是，当使用dask.dataframe时，它会忽略chunksize选项，因为所有dd个对象都有npartitions=1。

a = dd.read_hdf(FLA, key='A')
b = dd.read_hdf(FLB, key='A')

生成一个对象

Dask DataFrame Structure:
year    eiso3c  iiso3c  sitc3   value
npartitions=1                   
0   int64   object  object  object  float64
13414277    ... ... ... ... ...
Dask Name: read-hdf, 1 tasks

因此，当我拨打(a == b).all().all().compute()或assert_eq(a, b)时，代码似乎会将a和b数据集全部加载到内存中。

这是从hdf5读取时出现的问题，因为从csv文件中读取产生dd具有7个分区的对象的文件似乎有效吗？

从HDF文件中分区Dask DataFrames行为

0 个答案: