在apache文档中阅读:
InputSplit表示单个Mapper要处理的数据。
通常,它在输入上提供面向字节的视图,并且作业的RecordReader负责处理它并呈现面向记录的视图。
链接 - https://hadoop.apache.org/docs/r2.6.1/api/org/apache/hadoop/mapred/InputSplit.html
有人可以解释面向字节的视图和面向记录的视图之间的区别吗?
答案 0 :(得分:1)
HDFS拆分其块(面向字节的视图),以便每个块小于或等于配置的块大小。所以它被认为不遵循逻辑分裂。表示最后一条记录的一部分可能位于一个区块中,其余部分位于另一区块中。这似乎是正确的存储。但是在处理时,块中的部分记录不能按原样处理。因此,面向记录的视图已经到位。这将确保获取另一个块中最后一个记录的剩余部分,使其成为完整记录块。这称为输入分割(面向记录的视图)。