apache-spark - SPARK - 在每日基础上使用较小的数据集加入大型数据集

我有一个总是在增长的表，截至今天有大约4300万个独特的行。我需要每天将此表与另一个较小的数据集连接起来。

我的群集配置

Nodes : 3  
Memory : 162 GB in total - 54GB per node  
Total Cores : 24

问题：
1.对于批处理作业 - 如何每天使用较小的数据集加入此大表？ 2.对于Spark Streaming - 实时连接这两个表的最优化方法是什么？

我的想法：
1.为此使用广播变量 - 较小的数据集与大表相比“小”但不足以容纳在内存中的“小”。
2.以块的形式处理数据 - 我不知道该怎么做！

我正在寻找一些想法，以最有效的方式从可用的Spark节点实现我的目标欢迎任何建议或想法。