使用MapReduce在大文件中获取重复记录

时间:2012-07-31 02:36:23

标签: merge mapreduce

我有一个包含>的大文件1000万行。我想使用MapReduce获得重复的行。 我怎么解决这个问题? 谢谢你的帮助

1 个答案:

答案 0 :(得分:4)

您需要利用MapReduce的默认行为是基于公共密钥对值进行分组这一事实。

所以需要的基本步骤是:

  1. 将您文件的每一行读入您的映射器,可能使用类似TextInputFormat的东西。
  2. 将输出键(文本对象)设置为每行的值。价值的内容并不重要。如果需要,您可以将其设置为NullWritable。
  3. 在reduce检查中,为每个键分组的值的数量。如果您有多个值,则表示您有重复值。
  4. 如果您只想要重复的值,请写出具有多个值的键。
相关问题