apache-spark - Spark-优化多个连接的拼花地板

我有一个DataFrame，该ID的ID列用于连接其他DataFrame。这个DataFrame将被多次使用以连接到同一列上，因此我的直觉告诉我应该对它进行一次排序，将其存储在拼花中并读回已排序的内容，这样就不必在排序合并之前进行排序加入。由于这是唯一的ID，因此写分区是没有意义的，因为每个分区都是单个记录的一个文件。

是否有任何方法可以将DataFrame写到拼花地板上，以便可以利用我对它排序一次的事实？这涉及分区还是仅排序？

Spark-优化多个连接的拼花地板

0 个答案: