执行程序选项卡/作业任务问题

时间:2016-06-16 20:41:22

标签: apache-spark spark-streaming

这是我在spark UI上的spark job executor选项卡,不知道为什么只有一个执行程序上有这么多任务,请有人解释。

enter image description here

另外,在下面的图片中为什么17 / 17,20 / 20等创建的任务数量存在很多差异,如果我知道创建了多少相同数量的任务,我可以使用适当数量的核心 enter image description here 请建议

1 个答案:

答案 0 :(得分:0)

我猜是因为Spark意识到你的1个节点最接近其他节点,所以最近的执行器将完成所有的工作。

所以你要尝试的是尝试将spark.locality.wait增加到10或15,因为默认值为3秒。 但需要通过看到类似的东西来确认吗? enter image description here

但这不是最好的方法。您需要将数据源移动到与执行者更近的距离,因为网络传输的成本很高。

价:http://spark.apache.org/docs/latest/configuration.html#scheduling

相关问题