Spark:为什么有些执行器有0个活动任务和13个任务?

时间:2018-01-14 21:43:53

标签: hadoop apache-spark apache-spark-sql spark-dataframe rdd

我试图从s3读取并对数据帧进行计数。我有一个76 r3.4xlarge(1个主服务器和75个从服务器)的集群。我设置:

spark.dynamicAllocation.enabled "true" 
maximizeResourceAllocation "true"

当我查看Spark UI时,我只是看到了:

只有25个执行者 - 其中只有7个有活动任务(在13到28之间变化),其余的有0个活动任务。我的工作不是利用完整的集群容量。数据有240个分区,SparkUI中的总任务是241.

有人可以解释为什么只有少数执行者正在工作,为什么我只看到25个执行者而不是75个执行者?我怎样才能利用完整的群集容量?

群集详细信息: r3.4xLarge VCPU核心= 32 内存= 122 GB

更新1: 我尝试过设置:     spark.dynamicAllocation.enabled" false"     maximizeResourceAllocation" false"

sqlSession.conf.set("spark.executor.cores", 5)

sqlSession.conf.set("spark.executor.instances", 375)

sqlSession.conf.set("spark.executor.memory", "38G")

但我仍然没有在UI中看到375个执行者。

由于

0 个答案:

没有答案