为什么Spark Streaming会将所有批次保留在内存中?

时间:2015-11-19 10:39:25

标签: apache-spark spark-streaming

我想知道为什么Spark Streaming会将所有已处理的批次保留在内存中?它导致执行程序内存不足,但我在处理后真的不需要它们。可以在某处配置,以便批处理后不会保留在内存中吗?

1 个答案:

答案 0 :(得分:0)

在某种程度上,每批数据都被视为RDD,它是一个不可变的并行数据集合,它们保存在内存中并复制到多个节点以实现容错。

另一方面,只要有状态操作依赖于以前的批量数据。

实际上我并不是真的明白你的意思,但我认为火花流将在必要时消除旧的批次。

相关问题