Hadoop:映射二进制文件

时间:2010-06-10 07:38:34

标签: hadoop

通常在输入文件中,Mapper功能可以部分读取和处理(如文本文件中所示)。有没有什么办法可以处理二进制文件(比如图像,序列化对象),这些二进制文件要求所有块都在同一主机上,然后才能开始处理。

1 个答案:

答案 0 :(得分:3)

将图像粘贴到SequenceFile中;那么你将能够使用map-reduce迭代地处理它们。

有点不那么神秘:Hadoop本身并不了解有关文本和非文本的任何内容。它只有一个知道如何打开输入流的类(hdfs将不同节点上的块一起处理,使它们显示为一个大文件)。最重要的是,你有一个Reader和一个InputFormat,它知道如何确定流记录的起始位置,结束位置,以及如果你被放在文件中间的某个地方,如何找到下一条记录的开头。 TextInputFormat只是一个实现,它将换行视为记录分隔符。还有一种称为SequenceFile的特殊格式,您可以将任意二进制记录写入,然后将其取出。使用它。