SPARK - 在每日基础上使用较小的数据集加入大型数据集

时间:2016-12-01 02:37:25

标签: apache-spark machine-learning spark-streaming

我有一个总是在增长的表,截至今天有大约4300万个独特的行。我需要每天将此表与另一个较小的数据集连接起来。

我的群集配置

Nodes : 3  
Memory : 162 GB in total - 54GB per node  
Total Cores : 24

问题:
1.对于批处理作业 - 如何每天使用较小的数据集加入此大表? 2.对于Spark Streaming - 实时连接这两个表的最优化方法是什么?

我的想法:
1.为此使用广播变量 - 较小的数据集与大表相比“小”但不足以容纳在内存中的“小”。
2.以块的形式处理数据 - 我不知道该怎么做!

我正在寻找一些想法,以最有效的方式从可用的Spark节点实现我的目标 欢迎任何建议或想法。

0 个答案:

没有答案