在Hadoop中组合两个不同的文件

时间:2014-02-15 15:03:07

标签: hadoop mapper distributed-cache

我在Hadoop中有一个非常具体的问题。

我有两个文件 userlist 和* raw_data *。现在raw_data是一个非常大的文件,用户列表比另一个文件小。

我必须首先确定映射器的数量,我的用户列表必须分解为等于映射器数量的碎片。稍后它必须加载到分布式缓存中,它必须与用户列表进行比较并执行一些分析并将其写入reducer。

请建议。

谢谢。

1 个答案:

答案 0 :(得分:0)

我不明白为什么要分区用户列表文件。如果它很小,则将整个用户列表文件加载到分布式缓存。然后在map类的setup方法中,每个映射器都可以访问整个用户列表文件。此外,您可以在设置方法中找到映射器的数量并按照您的喜好对其进行分区。