SPARK独立群集模式下的工作者数量

时间:2014-12-01 06:21:11

标签: apache-spark

如何确定spark独立群集模式下的工作人员数量? 当我在独立群集模式下添加工作程序时,持续时间将减少。

例如,对于我的输入数据3.5 G,WordCount需要3.8分钟。但是,在我添加一名内存为4 G的工作人员后需要2.6分钟。

添加工作人员调整火花是否可以?我正在考虑风险。

我的环境设置如下,

  • 内存128 G,适用于9 VM的16 CPU
  • Centos的
  • Hadoop 2.5.0-cdh5.2.0
  • Spark 1.1.0

输入数据信息

  • 来自HDFS的3.5 G数据文件

1 个答案:

答案 0 :(得分:1)

您可以调整执行程序(JVM的数量及其内存)以及任务数。如果您正在做的事情可以从并行性中受益,您可以通过配置来旋转更多执行程序并增加任务数量(通过在代码中调用分区/合并等)。

当您设置并行度时,如果您正在进行大多数IO或计算等,一般来说Spark recommendation每个CPU核心有2-3个任务