hadoop - 有没有办法控制map reduce中的inputsplit

有没有办法控制map reduce中的inputsplit

时间：2014-02-06 05:19:39

标签： hadoop map mapreduce

我每小时有很多小（150-300 KB）文本文件9000，我需要通过map reduce处理它们。我创建了一个简单的MR，它将处理所有文件并创建单个输出文件。当我以1小时的数据运行这份工作时，需要45分钟。我开始挖掘性能不佳的原因，我发现它需要与文件数一样多的输入分割。因为我猜测表现不佳的原因之一。

有没有办法控制输入分割，我可以说一个输入分割/地图可以接受1000个文件。

1 个答案:

答案 0 :(得分：0)

Hadoop专为大量文件而设计，而不是其他方式。有一些方法可以使用preprocessing来搜索CombineFileInputFormat数据。

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？