Hadoop使用文件夹结构作为输入

时间:2012-01-12 17:23:54

标签: hadoop

我是一个尝试使用Hadoop的初学者,我想虽然我理解了一般的map-reduce内容,但我在开始时似乎错过了一些东西。

基本上我正在尝试使用hadoop解析一个网站(本地)并将链接结构作为结果(以便稍后我可以计算一些页面排名)。

因此输入是一个文件夹结构(带有子文件夹和文件),输出应该是,现在,每个文件都有一个链接到它的文件列表。

我应该使用什么InputFormat? FileInputFormat似乎不起作用(我遇到一个文件夹时遇到异常 - 说它是一个目录)。实际上是否有这样的InputFormat允许输入这样的文件夹结构?

如果不是......我应该以某种方式预处理输入数据吗?我应该将每个HTML文件都放到一个目录中并从中查看吗? 或者,有没有办法编写这样的InputFormat来完成我需要的工作?

1 个答案:

答案 0 :(得分:2)

  

实际上是否有这样的InputFormat允许输入这样的文件夹结构?

所有FileInputFormats都将Path作为输入,可以是目录或文件。

  

FileInputFormat似乎不起作用(遇到文件夹时遇到异常 - 说它是一个目录)。

JIRA已修复某些版本(0.21,0.22,0.23和trunk)。 o.a.h.mapred.FileInputFormat应该实现addInputPathRecursively方法。另外,注意到它没有在新的API(o.a.h.mapreduce.FileInputFormat)中实现。以下是来自trunk的o.a.h.mapred.FileInputFormat类的code

顺便说一下,您使用的是什么版本?

  

基本上我正在尝试使用hadoop解析一个网站(本地)并将链接结构作为结果(以便稍后我可以计算一些页面排名)。

由于媒体关注/炒作,Hadoop被用于所有事情。 Hadoop as-is适用于某些类型的问题。考虑使用Apache HamaGiraph进行图形处理。请注意,两者都在孵化器中,文档也很稀疏。

相关问题