Question

我有两个数据集Customer和Goods。 Customer数据集将客户ID作为密钥，并将客户购买的商品ID列为值。货物数据集具有良好的关键价值和价格。如何根据外国商品的ID加入这两个数据集？

customer dataset:
customer id, goods id1,goods id2, ...

goods dataset
goods id1, price1
goods id2, price2

The join result dataset I want:
customer id1,price1,price2,...
customer id2,pric3e,price4,...

我是hadoop的新手。我知道它可以在Pig和Hive中完成，但我想在带有Hadoop的java中实现它。有谁能够帮我？非常感谢！

Answer 1

检查Data-Intensive Text Processing with MapReduce文档中的Relational Joins部分。

Answer 2

我可以补充保罗的答案。您可以在此处使用分布式缓存的概念。将较小的文件（我猜是商品数据集）加载到分布式缓存中。（默认情况下，分布式缓存最多可容纳10Gb的数据）。然后，您可以使用法线贴图读取客户数据集，并使用分布式缓存中的匹配数据执行连接。

有趣的是，无论datanode如何，每个映射器都可以访问分布式缓存数据中的数据。

http://bigdatapartnership.com/map-side-and-reduce-side-joins/可以为您提供有关加入MapReduce应用程序的见解。

Hadoop：权威指南作者：Tom White提供了Map Side Join，Reduce Side Join和Join with Distributed Cache的程序示例。

Chuck Lam的 Hadoop In Action 的第5章也讨论了连接问题。

Answer 3

“商品”数据集有多大？如果它足够小，最简单的方法是将其加载到映射器的内存中（在hashmap中），然后将“Customers”数据集作为作业的输入。然后，您可以在迭代输入时运行您的作业并查找“商品”。您可以使用分布式缓存将“货物”数据分发到群集中的每个节点。

如何根据hadoop中的公共密钥连接两个数据集？

3 个答案: