为什么对从Parquet文件构造的Dask DataFrame进行分类会大大增加其大小?

时间:2019-03-22 16:52:32

标签: dask parquet fastparquet

这是原型场景:

  1. 我用FastParquet编写的一组Parquet文件构造了一个Dask DataFrame
  2. 我在DataFrame上运行categorize()。不少类别成为新的“知名”。
  3. 我通过FastParquet将DataFrame保存到新的Parquet文件集中

新的Parquet文件现在占用的磁盘空间是原始文件的几倍!现在,我不是在乎磁盘空间(我有足够的空间),而是在寻求理解:

即使原始文件集的类别不为“已知”,它们仍必须位于文件集的磁盘空间“ 某处”中。如果有的话,如果原始文件集的分类列没有使用字典开头,我可能会期望磁盘使用量减少

是的,只是想了解。有什么作用?

0 个答案:

没有答案
相关问题