随机混搭哈希联接和排序合并联接如何工作?

时间:2019-02-21 15:23:56

标签: apache-spark

我可以解释广播加入的工作原理,而本文则对此进行了很好的解释:https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-joins-broadcast.html

但是我没有找到一篇文章来解释shuffle哈希联接和排序合并联接的内部工作原理。

任何人都可以针对这2个算法给出逐步算法吗?

3 个答案:

答案 0 :(得分:1)

这是一种很好的材料:

Shuffle Hash Join

Sort Merge Join

请注意,自Spark 3.2起,spark.sql.join.preferSortMergeJoin的默认值已更改为true

答案 1 :(得分:1)

一个很好的链接,说明了广播哈希联接,随机哈希联接和排序合并联接

https://www.linkedin.com/pulse/spark-sql-3-common-joins-explained-ram-ghadiyaram

答案 2 :(得分:0)

对于简短的合并联接:这是一个很好的视频,介绍了算法:  https://www.youtube.com/watch?v=jiWCPJtDE2c&t=97s