apache-spark - 我可以在Spark结构化流媒体中增量更新数据集吗？

我需要一个数据库查询（JDBC数据源）中的数据集，其中包含比某个时间戳（例如select * from TABLE where created_at > ?）新的所有行。但是我需要针对每个出现的微批处理进行更新。理想情况下，我想每次都修改数据集，但一次最多保留n行（而不是重新加载整个行）每次）。这样，我就可以获取自上次查找以来添加的表行。

在Spark结构化流媒体中，有没有办法实现这一目标（或接近这一目标的东西）？

我可以在Spark结构化流媒体中增量更新数据集吗？

0 个答案: