hadoop - Hadoop使用文件夹结构作为输入

我是一个尝试使用Hadoop的初学者，我想虽然我理解了一般的map-reduce内容，但我在开始时似乎错过了一些东西。

基本上我正在尝试使用hadoop解析一个网站（本地）并将链接结构作为结果（以便稍后我可以计算一些页面排名）。

因此输入是一个文件夹结构（带有子文件夹和文件），输出应该是，现在，每个文件都有一个链接到它的文件列表。

我应该使用什么InputFormat？ FileInputFormat似乎不起作用（我遇到一个文件夹时遇到异常 - 说它是一个目录）。实际上是否有这样的InputFormat允许输入这样的文件夹结构？

如果不是......我应该以某种方式预处理输入数据吗？我应该将每个HTML文件都放到一个目录中并从中查看吗？或者，有没有办法编写这样的InputFormat来完成我需要的工作？

实际上是否有这样的InputFormat允许输入这样的文件夹结构？

所有FileInputFormats都将Path作为输入，可以是目录或文件。

FileInputFormat似乎不起作用（遇到文件夹时遇到异常 - 说它是一个目录）。

JIRA已修复某些版本（0.21,0.22,0.23和trunk）。 o.a.h.mapred.FileInputFormat应该实现addInputPathRecursively方法。另外，注意到它没有在新的API（o.a.h.mapreduce.FileInputFormat）中实现。以下是来自trunk的o.a.h.mapred.FileInputFormat类的code。

顺便说一下，您使用的是什么版本？

基本上我正在尝试使用hadoop解析一个网站（本地）并将链接结构作为结果（以便稍后我可以计算一些页面排名）。

由于媒体关注/炒作，Hadoop被用于所有事情。 Hadoop as-is适用于某些类型的问题。考虑使用Apache Hama和Giraph进行图形处理。请注意，两者都在孵化器中，文档也很稀疏。

Hadoop使用文件夹结构作为输入

1 个答案: