dask - 使用to_parquet函数创建的dask实木复合地板文件结构

实木复合地板的实际记录说

典范实木复合地板文档未解决将数据集拆分为多个文件的问题。我相信，目录结构和可选的特殊_metadata文件是Hive首先设计的约定。它是标准实木复合地板规格的附加内容，但并不违反标准。

每个数据文件包含许多行，并且本身就是一个有效的镶木地板数据集，包含一个或多个“行组”（镶木地板的逻辑分区），每一列都写入文件的单独部分并进行编码作为许多“页面”。 Parquet允许字典编码，但这是每页的事情，并且没有全局分类标签方案，因此将值编码到路径名中非常有用，并且还允许对我们要过滤的文件进行预过滤。访问，只需要一些值。

简短的回答：是的，dask在做正确的事！

使用to_parquet函数创建的dask实木复合地板文件结构

1 个答案: