如何在Amazon EMR集群上远程提交hadoop MR作业

时间:2018-12-06 00:24:15

标签: python amazon-web-services hadoop mapreduce amazon-emr

当前情况:我有一个EMR集群。在主节点上-我有一个python程序,该程序执行子进程并执行包含以下行的脚本。子进程触发MR作业,并将输出写入到我稍后使用的HDFS中。

/usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt

我想做什么? 现在,我要分离这部分。我想在笔记本电脑或单独的EC2实例上本地运行python程序,但仍将MR作业提交给EMR群集。假设我在EMR主节点上有test.jar。

如何远程提交?另外,我使用的是Python,我们还假设JAR为黑匣子。我可以使用任何包裹提交工作吗?我必须提到像主节点的IP才能运行它吗?

0 个答案:

没有答案