标签: mapreduce
我有一个长期运行的地图唯一的工作。每个映射器处理大约25G数据并写入一个文件。输入数据已排序,因此我无法将输入数据拆分为多个映射器。但是,输出数据不需要排序。如何为每个映射器编写多个文件,以便输出文件不那么大?我想关闭当前打开的文件,只要该文件足够大(比如1G)并开始写入不同的文件。