performance - 使映射器处理多个文件而不是单个文件

使映射器处理多个文件而不是单个文件

时间：2014-03-17 19:26:52

标签： performance hadoop mapreduce

我有一个hadoop映射器代码，它将文件作为输入处理它们，并将单个键和处理后的值发送到reducer。问题是我有接近100000个文本文件不超过5,6 kb，但是当我运行这个工作时，需要很长时间才能完成。一个原因是每个映射器开始只处理一个文件然后被销毁。因此，即使处理完全没有计算成本，我在mapper启动时也会失去很多时间。如何确保映射器继续处理多个文件？我的映射器的最大限制是默认设置，我可以看到为6。

如果需要进一步的详细信息，请告诉我。

1 个答案:

答案 0 :(得分：3)

您应该使用CombineFileInputFormat处理许多小文件。这确实有助于提高绩效。

在hadoop中实现多个映射器和单个reducer
Hadoop Wordcount示例包含多个文件并杀死其中的mappers
使映射器处理多个文件而不是单个文件
GNU Make Single Target生成多个文件
创建像TextLine一样的Scalding Source，它将多个文件组合成单个映射器
如何使Hadoop Map Reduce在一次运行中处理多个文件？
单个make文件用于多个main.cpp文件
如何同时在单个节点中运行多个映射器
使用多个映射器和缩减器进行Mapreduce
多个映射器将输出写入单个文件

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？