Mapreduce:在单个作业

时间:2015-07-30 23:40:41

标签: hadoop mapreduce

我需要只将选定的记录从mapper发送到reducer和rest filter记录,以便从mapper本身写入hdfs。 Reducer会将记录发送到reducer。我的工作是处理20TB中的大量数据,它使用30K映射器,所以我相信我也不能用mapper的清理方法编写,因为从30K映射器的输出文件(30k文件)加载该数据将是下一个工作的另一个问题。我正在使用CDH4。有没有人用其他任何不同的方法实现类似的场景?

1 个答案:

答案 0 :(得分:0)

如果要将数据写入HDFS,是通过Java客户端还是HDFS?如果是,那么您可以编写条件逻辑来写入HDFS并写入输出位置,reducer从中获取。不符合条件的记录可以使用映射器写入输出位置,然后由reducer接收。 默认情况下,输出位置也是HDFS位置,但您必须根据具体情况查看数据在HDFS中的方式。