在Spark作业中,在多个阶段中重复相同的任务集

时间:2017-08-18 06:06:54

标签: apache-spark

一组任务包括过滤器&地图出现在多个阶段的DAG可视化中。这是否意味着在所有阶段重新计算相同的转换?如果是这样如何解决这个问题?

1 个答案:

答案 0 :(得分:1)

对于在数据帧上执行的每个action,将重新计算所有转换。这是因为在执行操作之前不会计算转换。

如果您只有一个操作,则无法执行任何操作,但是,如果多个操作相继执行,则可以在最后一次转换后使用cache()。通过使用此方法,Spark将在第一次计算后将数据帧保存到RAM,从而使后续操作更快。

相关问题