Spark和分析或执行计划

时间:2017-04-02 09:50:19

标签: apache-spark pyspark

spak中是否有任何工具可以帮助理解代码的解释和执行方式。像分析工具或执行计划的细节,以帮助优化代码。

例如,我已经看到最好在连接之前对连接键上的两个数据帧进行分区,以避免额外的混乱。我们怎么能弄明白?

1 个答案:

答案 0 :(得分:2)

正如Pushkr所说,通过数据框和数据集,我们可以使用.explain()方法来显示派生,分离和最终的随机播放。

使用RDD,我们可以使用toDebugString来获得相同的结果。 此外,还有依赖关系来指示新的rdd是否来自前一个具有窄或宽依赖性的rdd。