我可以像在本地群集上一样在EMR上运行作业

时间:2017-01-12 09:07:46

标签: amazon-web-services hadoop emr amazon-emr

我在笔记本电脑上构建了一个本地群集(伪模式)。我在哪里运行不同的mapreduce命令,如

hadoop-streaming -D mapred.output.compress=true \
   -D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
   -files my_mapper.py,my_reducer.py \
  -mapper my_mapper.py  \
  -reducer my_reducer.py \
  -input /aws/input/input_warc.txt \
  -output /aws/output

现在我必须在EMR上运行它。有两个选项可以使用,一个是控制台,第二个是aws cli。我想像上面那样运行完全相同的命令。为此,我想如果我ssh到EMR master,那么我应该能够运行这个命令。这是正确的方式还是这个approch的任何缺点?

1 个答案:

答案 0 :(得分:1)

是的,您可以通过SSH连接到您的群集并在那里运行您的工作,但您也可以使用步骤API(http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-steps.html)在主实例上运行任意命令,当然包括像您的示例一样运行分布式作业。您可以使用AWS CLI(" aws emr add-step ..."或者在使用" aws emr create-cluster ... --steps创建群集期间)向群集添加步骤。 ..")或类似地使用AWS软件开发工具包(如AWS Java SDK)或使用AWS EMR控制台。

Step API的一些优点包括它捕获每个步骤的输出,以便您可以通过AWS CLI,SDK或AWS Console查看它,还可以检查步骤的状态以确定它们何时完成

Step API的一个缺点是目前所有步骤都按顺序运行,因此您无法并行运行多个步骤。