hadoop - Hadoop输入拆分和记录阅读器

Hadoop输入拆分和记录阅读器

时间：2016-01-19 08:01:23

标签： hadoop

在apache文档中阅读：

InputSplit表示单个Mapper要处理的数据。

通常，它在输入上提供面向字节的视图，并且作业的RecordReader负责处理它并呈现面向记录的视图。

链接 - https://hadoop.apache.org/docs/r2.6.1/api/org/apache/hadoop/mapred/InputSplit.html

有人可以解释面向字节的视图和面向记录的视图之间的区别吗？

1 个答案:

答案 0 :(得分：1)

HDFS拆分其块（面向字节的视图），以便每个块小于或等于配置的块大小。所以它被认为不遵循逻辑分裂。表示最后一条记录的一部分可能位于一个区块中，其余部分位于另一区块中。这似乎是正确的存储。但是在处理时，块中的部分记录不能按原样处理。因此，面向记录的视图已经到位。这将确保获取另一个块中最后一个记录的剩余部分，使其成为完整记录块。这称为输入分割（面向记录的视图）。