hadoop - 在火花加入中，表格顺序像猪一样吗？ - Thinbug

在火花加入中，表格顺序像猪一样吗？

时间：2015-02-24 11:24:09

标签： hadoop apache-spark apache-pig bigdata

与Spark - Joining 2 PairRDD elements

相关

在pig中进行常规连接时，连接中的最后一个表不会被带入内存而是通过流式传输，因此如果A的每个键的基数小且B基数大，那么{{1}更好从性能角度（避免溢出和OOM）<} {而不是join A, B

火花中有类似的概念吗？我没有看到任何这样的推荐，并想知道它是如何可能的？实现在我看来几乎和猪一样：https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/CoGroupedRDD.scala

或者我错过了什么？

1 个答案:

答案 0 :(得分：4)

它没有什么区别，在火花中，如果缓存RDD只会被带入内存。因此，在spark中实现相同的效果，您可以缓存较小的RDD。你可以用火花做的另一件事，我不确定那只猪，如果所有的RDD都加入了相同的分区，那么就不需要进行随机播放。