spark独立集群,在一个执行程序上运行的作业

时间:2016-04-14 17:40:16

标签: apache-spark

我有一个包含3个节点的小型集群,共有12个核心和44 GB内存。我正在从hdfs(5 mb)读取一个小文本文件并在其上运行kmeans算法。我将执行程序的数量设置为3,并将我的文本文件分区为三个分区。应用程序UI显示只有一个执行程序正在运行所有任务。 以下是应用程序GUI enter image description here的屏幕截图 这是Jobs UI: enter image description here 有人可以帮我弄清楚为什么我的任务都在一个执行器中运行而其他人在闲置吗?感谢。

1 个答案:

答案 0 :(得分:1)

尝试将文件重新分区为12个分区。如果你有3个分区,每个节点有4个核心,那么就不能在1个节点上运行所有任务。 Spark粗略地将工作分为1个核心上的1个分区。

相关问题