改变地图侧连接以减少侧连接获得了更多的数据

时间:2014-11-21 00:44:07

标签: hadoop mapreduce

因为Map side join无法拆分输入文件,所以我改为减少侧连接以提高性能。最后,性能得到了提升,但我得到的数据略多于千分之一。我已经挖了很多天但仍然无法弄明白。 地图侧连接过程如下: UserId(地图键)==> ReportId(reduce key)==>输出

reduce方面使用两个emrs: EMR1:UserId(Map Key)==> UserId(Reduce Key)此作业用于完成UserId的连接 EMR2:UserId(地图密钥)==> ReportId(ReduceKey)==>产量 谢谢你的任何建议!

0 个答案:

没有答案