我有一个总是在增长的表,截至今天有大约4300万个独特的行。我需要每天将此表与另一个较小的数据集连接起来。
我的群集配置
Nodes : 3
Memory : 162 GB in total - 54GB per node
Total Cores : 24
问题:
1.对于批处理作业 - 如何每天使用较小的数据集加入此大表?
2.对于Spark Streaming - 实时连接这两个表的最优化方法是什么?
我的想法:
1.为此使用广播变量 - 较小的数据集与大表相比“小”但不足以容纳在内存中的“小”。
2.以块的形式处理数据 - 我不知道该怎么做!
我正在寻找一些想法,以最有效的方式从可用的Spark节点实现我的目标 欢迎任何建议或想法。