控制Reducer结果输出文件/存储桶

时间:2012-06-23 02:36:34

标签: hadoop

我有一个应用程序,我想制作我的reducer(我有几个用于map / reduce作业)将它们的输出记录到HDFS上的不同文件中,具体取决于要进行处理的密钥。因此,如果reducer看到一个类型为A的键,则应用reduce逻辑但是告诉Hadoop将结果放入属于A类结果的hdfs文件中,依此类推。显然,多个减速器可以输出A型结果的不同部分,每个减速器最终可以处理任何类型,如A或B,但告诉hadoop将结果写入A型桶或其他东西

这可能吗?

1 个答案:

答案 0 :(得分:1)

MultipleOutputs几乎就是你要找的(假设你至少是0.21版本)。在我自己的工作中,我使用了这个类的克隆,对命名约定更加灵活,根据我想要的任何内容将输出发送到不同的文件夹/文件,包括输入记录(键或值)的各个方面。因此,该类对您可以为输出提供的名称有一些严格的限制。