apache-spark - 随机混搭哈希联接和排序合并联接如何工作？ - Thinbug

随机混搭哈希联接和排序合并联接如何工作？

时间：2019-02-21 15:23:56

标签： apache-spark

我可以解释广播加入的工作原理，而本文则对此进行了很好的解释：https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-joins-broadcast.html

但是我没有找到一篇文章来解释shuffle哈希联接和排序合并联接的内部工作原理。

任何人都可以针对这2个算法给出逐步算法吗？

3 个答案:

答案 0 :(得分：1)

这是一种很好的材料：

Shuffle Hash Join

Sort Merge Join

请注意，自Spark 3.2起，spark.sql.join.preferSortMergeJoin的默认值已更改为true。

答案 1 :(得分：1)

一个很好的链接，说明了广播哈希联接，随机哈希联接和排序合并联接

https://www.linkedin.com/pulse/spark-sql-3-common-joins-explained-ram-ghadiyaram

答案 2 :(得分：0)

对于简短的合并联接：这是一个很好的视频，介绍了算法： https://www.youtube.com/watch?v=jiWCPJtDE2c&t=97s