hadoop - Hadoop如何决定在存储桶/节点之间进行分配？

Hadoop如何决定在存储桶/节点之间进行分配？

时间：2013-09-22 17:45:51

标签： hadoop mapreduce distributed-computing hadoop-partitioning

我是Map / Reduce和Hadoop框架的新手。我正在单机上运行Hadoop程序（试用它）。我有n个输入文件，我想从这些文件中得到一些单词摘要。我知道map函数返回键值对，但是如何调用map？一旦在每个文件上或每个文件的每一行上一次？我可以配置吗？

假设是否正确，每个键都会调用“reduce”？

2 个答案:

答案 0 :(得分：2)

为一个 InputSplit（或简称拆分）调用一张地图，您在MR工作中使用的输入格式的职责是设置这些分裂。它可以是一行，多行，一个整个文件等，基于InputFormat中的逻辑。例如，默认的InputFormat，即 TextInputFormat 包含单行的拆分包。

是的，您可以通过更改正在使用的InputFormat来配置它。

与特定键对应的所有值都聚合在一起，多个键被分区为分区，整个分区转到reducer进行进一步处理。因此，对应于特定键的所有值都由单个reducer处理，但是单个reducer可以获得多个键。

答案 1 :(得分：1)

在Hadoop MR框架中，作业跟踪器为每个 InputSplit 创建一个地图任务，由作业指定的 InputFormat 确定。分配给地图任务的每个 Inputsplit 由 RecordReader 进一步处理，以生成地图功能的输入键/值对。为 RecordReader 生成的每个键/值对调用map函数。

对于默认输入格式，即 TextInputFormat ，输入拆分将是单个HDFS块，将由单个地图任务处理， RecordReader 将处理一个在块内的一次行生成键/值对，其中键是文件中行的起始字节偏移量，值是将传递给映射函数的行的内容。

减速器的数量取决于用户的作业配置，所有具有相同键的键/值对被分组并将被发送到按键排序的单个减速器，但同时单个减速器也可以处理多个键。

有关输入格式的详细信息并对其进行自定义，请参阅此YDN文档：

http://developer.yahoo.com/hadoop/tutorial/module5.html#inputformat