我可以在Spark结构化流媒体中增量更新数据集吗?

时间:2019-03-04 06:19:23

标签: apache-spark apache-spark-sql spark-structured-streaming spark-jdbc

我需要一个数据库查询(JDBC数据源)中的数据集,其中包含比某个时间戳(例如select * from TABLE where created_at > ?)新的所有行。但是我需要针对每个出现的微批处理进行更新。理想情况下,我想每次都修改数据集,但一次最多保留n行(而不是重新加载整个行)每次)。这样,我就可以获取自上次查找以来添加的表行。

在Spark结构化流媒体中,有没有办法实现这一目标(或接近这一目标的东西)?

0 个答案:

没有答案
相关问题