如何从另一个Spark作业(B)查询Spark作业(A)中的持久数据帧

时间:2019-03-30 17:36:37

标签: apache-spark spark-streaming

diagram有两个火花流作业在不同的容器上运行-我们将其称为教师作业和学生作业。两者都从两个不同的卡夫卡主题中读取。当学生消息进入学生临时工作时,我需要“查询”教师工作的持久性数据以检索与该学生相关的老师(在此示例中,该学生只有一位老师,但一位老师可以有很多学生)。如何在教师工作中保留键值对(或教师数据框),然后在学生工作中检索/查找该教师,以便我可以在知道该教师的情况下处理该学生?我可以在一项工作中使用persist(),而在另一项工作中使用unpersist()吗?

1 个答案:

答案 0 :(得分:1)

从证据来看,采用Kafka集成并利用Stream-Stream Join进行Spark结构化流式处理是必经之路。