Amazon Elastic Map Reduce:作业流失败,因为尚未生成输出文件

时间:2014-10-27 19:00:14

标签: hadoop amazon-emr

我有一个执行三项任务的Amazon EMR作业流程,第一项输出是后续两项的输入。第二个任务的输出由第三个任务DistributedCache使用。

我已经完全在EMR网站(控制台)上创建了作业流程,但是群集因为无法找到分布式缓存文件而立即失败 - 因为它尚未在步骤#1中创建。

我唯一的选择是通过boostrap操作从CLI创建这些步骤,并指定--wait-for-steps选项吗?看起来很奇怪,我无法执行多步作业流程,其中一个任务的输入依赖于另一个任务的输出。

1 个答案:

答案 0 :(得分:1)

最后,我通过创建一个引导但没有步骤的Amazon EMR集群来解决这个问题。然后我将SSH连接到头部并在控制台上运行hadoop作业。

我现在可以灵活地将它们添加到每个作业具有单独配置选项的脚本中。