Question

我正在尝试使用parquet / dask_cudf来读取单个大dask文件（大小> gpu_size），但目前正在将其读取到单个分区中，我猜是从文档字符串推断出的预期行为：

dask.dataframe.read_parquet(path, columns=None, filters=None, categories=None, index=None, storage_options=None, engine='auto', gather_statistics=None, **kwargs):

    Read a Parquet file into a Dask DataFrame
    This reads a directory of Parquet data into a Dask.dataframe, one file per partition. 
    It selects the index among the sorted columns if any exist.

我可以将其读入多个分区吗？

Answer 1

镶木地板数据集可以保存到单独的文件中。每个文件可以包含单独的行组。 Dask Dataframe将每个Parquet行组读入一个单独的分区。

根据您的说法，听起来您的数据集只有一个行组。如果真是这样，那么不幸的是，Dask在这里根本无法做任何事情。

您可能想返回到数据源以查看其保存方式，并验证保存该数据集的任何过程是否以不创建非常大的行组的方式进行了操作。

如何使用dask / dask-cudf将单个大型实木复合地板文件读取到多个分区中？

1 个答案: