同步hadoop中的多个map reduce作业

时间:2012-11-01 01:06:41

标签: map hadoop reduce synchronize

我有一个用例,可以同时运行多个作业。所有作业的输出必须与HDFS(包含键值对)中没有重复项的公共主文件合并。我不确定如何避免在这种情况下可能出现的竞争状况。作为示例,作业1和作业2同时将相同的值写入主文件,从而产生重复。感谢你的帮助。

1 个答案:

答案 0 :(得分:1)

Apache Hadoop不支持并行写入同一文件。这是reference

  

HDFS中的文件是一次写入的,并且在任何时候都只有一个写入器。

因此,多个地图/作业无法同时写入同一文件。必须编写另一个作业/ shell或任何其他程序来合并多个作业的输出。

相关问题