Hadoop输入拆分和记录阅读器

时间:2016-01-19 08:01:23

标签: hadoop

在apache文档中阅读:

InputSplit表示单个Mapper要处理的数据。

通常,它在输入上提供面向字节的视图,并且作业的RecordReader负责处理它并呈现面向记录的视图。

链接 - https://hadoop.apache.org/docs/r2.6.1/api/org/apache/hadoop/mapred/InputSplit.html

有人可以解释面向字节的视图和面向记录的视图之间的区别吗?

1 个答案:

答案 0 :(得分:1)

HDFS拆分其块(面向字节的视图),以便每个块小于或等于配置的块大小。所以它被认为不遵循逻辑分裂。表示最后一条记录的一部分可能位于一个区块中,其余部分位于另一区块中。这似乎是正确的存储。但是在处理时,块中的部分记录不能按原样处理。因此,面向记录的视图已经到位。这将确保获取另一个块中最后一个记录的剩余部分,使其成为完整记录块。这称为输入分割(面向记录的视图)。

相关问题