apache-spark - Spark结构化流媒体中的动态缓存

我需要有两个动态共享缓存（基本上是一种哈希图），才能在Spark结构化的流作业中获取一些信息。高速缓存是动态的，因为在同一批次中，Spark执行程序可能正在更新高速缓存并读取它们。据我了解，spark没有提供任何在所有执行者之间共享动态数据的机制。

有没有一种方法可以在流媒体中维护内存缓存？

如果没有，在这种情况下，哪个外部数据库源将提供最佳性能。我已经探索了一些没有SQL数据库的数据库，例如hbase，cassandra等。

缓存的大小将达到一百万左右。每批流处理中正在处理的记录数约为10万。