标签: apache-spark
在经过一些转换后,对于从此缓存到达的数据帧调用写操作后,Spark正在清除缓存的RDD。因此,可能会使用高速缓存的任何其他操作都必须重新计算RDD。但是,如果该动作被count或take缓存之类的任何其他动作代替,则该持久性仍然存在,并且可以在后续操作中使用。
为什么会发生?
答案 0 :(得分:1)
缓存数据框后,您可以先使用df.count()之类的操作,然后将缓存数据框。在缓存被其他操作触发后,使用write()。