Spark-优化多个连接的拼花地板

时间:2018-09-10 02:58:18

标签: apache-spark amazon-s3 apache-spark-sql parquet

我有一个DataFrame,该ID的ID列用于连接其他DataFrame。这个DataFrame将被多次使用以连接到同一列上,因此我的直觉告诉我应该对它进行一次排序,将其存储在拼花中并读回已排序的内容,这样就不必在排序合并之前进行排序加入。由于这是唯一的ID,因此写分区是没有意义的,因为每个分区都是单个记录的一个文件。

是否有任何方法可以将DataFrame写到拼花地板上,以便可以利用我对它排序一次的事实?这涉及分区还是仅排序?

0 个答案:

没有答案
相关问题