java - 加入2对RDD而不进行改组

加入2对RDD而不进行改组

时间：2015-03-01 16:18:46

标签： java scala hadoop apache-spark

我有2个PairRDD：rddA是一个巨大的尺寸，而且rddB要小得多。我需要通过密钥加入它们，以便我可以进一步迭代对应于相同密钥的那些PairRDD的元素对。 PairRDD #joed方法似乎正是我所需要的，但我发现它涉及改组，从而导致将大量数据写入HDFS并频繁出现内存不足错误。有什么办法可以避免洗牌吗？

1 个答案:

答案 0 :(得分：1)

要减少混洗数据，必须在同一个集群节点上进行共存。

控制数据源级别的分区和/或使用.partition运算符
如果小RDD可以适合所有工作人员的内存，那么使用广播变量是更快的选择

一些帮助我的指示：

Advanced Spark Training特别是在第12张幻灯片中
关于加入广播地图：Advanced Spark Features特别是幻灯片9-12

在没有匹配的情况下改组2个相同的数组，PHP有帮助吗？
随机将数组2个元素随机抽取2
在没有逗号的情况下改组numpy数组
加入2对RDD而不进行改组
LEFT JOIN 2 INNER JOIN表没有子查询
Spark PairRDDs和DataFrames是否被索引？
SQL连接没有关系的2个表
没有改组的分区总和
没有阵列的洗牌
显示没有加入的2总和

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？