如何在Spark中加速leftouterjoin?

时间:2015-07-28 04:59:16

标签: python optimization apache-spark left-join query-optimization

如何加速火花中的左外部连接
我在Spark工作。
左外连接成为整个工作的瓶颈 因此有必要优化火花中的左外部连接。
它是200万条记录数据集之间的左外部连接 计算左外连接需要8分钟 13

  

leftOuterJoin at:26
      2015/07/28 04:38:16 8.3分钟   7/7
      152.7 MB 50.5 MB 278.5 MB

1 个答案:

答案 0 :(得分:0)

您是否在RDD中使用了partitionBypersist

为了提高性能,我建议你应该使用partionby并在左边(在左外连接中)保留RDD。

示例代码:

val leftRDD = sc.textFile(//..).partitionBy(numPartitions).persist()

numPartitions:取决于您的群集硬件。核心数量(如果您有4台核心机器,则选择numPartitions = 8)

相关问题