Mapreduce作业,它从多个文件中获取输入,并将输出显示为文件的单词列表

时间:2014-12-18 02:44:13

标签: hadoop mapreduce

我是hadoop的新手,在这里我试图写一个MR作业,它从多个文件中获取输入,并将输出显示为文件的单词列表,但是我在这里无法获取ile名称

  • 例如:hadoop [file1,file2,file3]     Hive [file2,file3]

1 个答案:

答案 0 :(得分:0)

这与Word Count程序非常相似。

From Map emit,

Word,Filename

提取文件名,

String fileName = ((FileSplit) context.getInputSplit()).getPath().getName();

In Reduce,

默认情况下,您将获得每个单词的文件名分组。您可以迭代并执行您需要的操作。