apache-spark - 为什么Spark Streaming会将所有批次保留在内存中？ - Thinbug

为什么Spark Streaming会将所有批次保留在内存中？

时间：2015-11-19 10:39:25

标签： apache-spark spark-streaming

我想知道为什么Spark Streaming会将所有已处理的批次保留在内存中？它导致执行程序内存不足，但我在处理后真的不需要它们。可以在某处配置，以便批处理后不会保留在内存中吗？

1 个答案:

答案 0 :(得分：0)

在某种程度上，每批数据都被视为RDD，它是一个不可变的并行数据集合，它们保存在内存中并复制到多个节点以实现容错。

另一方面，只要有状态操作依赖于以前的批量数据。

实际上我并不是真的明白你的意思，但我认为火花流将在必要时消除旧的批次。