Spark广播连接1.5 M记录数据集需要与150个记录临时表连接

时间:2017-03-22 05:35:18

标签: apache-spark apache-spark-sql spark-dataframe

我面临一个问题,即尝试加入1.5M记录数据集到另一个拥有150条记录的DF。性能非常差,并且显示不正确的结果。你能否建议使用Scala建议使用LargeDF与小DF连接的广播连接?

谢谢!

1 个答案:

答案 0 :(得分:0)

你可以明确地使用广播功能,虽然如评论中所提到的,spark应自动加入小型DF。

import org.apache.spark.sql.functions.broadcast

dfBig.join(broadcast(dfSmall))