如何使用群集模式在纱线上并行运行多个火花作业?

时间:2017-10-09 09:53:09

标签: apache-spark yarn

例如,当我将第一个作业提交到纱线群集时,作业正在运行,然后提交第二个作业,第二个作业状态永远不会运行,直到第一个作业完成成功或失败。

有没有办法在群集模式下在纱线上并行运行多个火花作业?

1 个答案:

答案 0 :(得分:2)

这都与您的队列设置有关。 如果未使用--queue QUEUE_NAME明确指定作业队列,则会在默认队列中启动它,否则(如果在指定队列中提交作业时添加参数--queue system)。 您可以在YARN / Configs / Advanced / Scheduler(我正在使用Ambari),参数yarn.scheduler.capacity.<queue-path>.maximum-applications中配置队列(创建新的,设置最大应用数量!,在队列之间拆分资源等)。

另请阅读https://hadoop.apache.org/docs/r2.7.4/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html