Spark Dataframe写入操作将清除缓存的Dataframe

时间:2018-11-30 13:35:58

标签: apache-spark

在经过一些转换后,对于从此缓存到达的数据帧调用写操作后,Spark正在清除缓存的RDD。因此,可能会使用高速缓存的任何其他操作都必须重新计算RDD。但是,如果该动作被count或take缓存之类的任何其他动作代替,则该持久性仍然存在,并且可以在后续操作中使用。

为什么会发生?

1 个答案:

答案 0 :(得分:1)

缓存数据框后,您可以先使用df.count()之类的操作,然后将缓存数据框。在缓存被其他操作触发后,使用write()。