hadoop - 如何在reducer中使用相同的键输出多个值？

我有一堆文本文件被分类，我想为每个类别创建一个序列文件，其中键是类别名称，值包含该类别所有文件的所有文本内容。

我有一个只有两列的nosql数据库。每行代表一个文件，第一列是类别名称，第二列是存储在HDFS上的文本文件的绝对地址。我的映射器读取数据库和输出对，其中键是类别，值是绝对地址。在reducer方面，我有每个类别的所有文件的地址，我想为每个类别创建一个序列文件，其中键是类别名称，值包含属于所有文件的所有文本内容到那个类别。

一个简单的解决方案是迭代对（在reducer中）并逐个打开文件，并将其内容附加到String变量，最后使用MultipleOutputs创建一个序列文件。但是，由于文件大小可能很大，因此将内容附加到单个String可能是不可能的。有没有办法不使用String变量？

如何在reducer中使用相同的键输出多个值？

1 个答案: