没有键

时间:2016-06-02 10:36:23

标签: merge apache-pig

在Apache Pig 0.15中,我有两个简单的列表(WITHOUT id / primary key等),我想将它们合并在一起创建一个包含两列的元组列表。例如:

Names
-----
Peter
John
Anne

Ages
-----
45
23
44

我想最终:

Names  Age
---------------
Peter  45
John   23
Anne   44

我知道我可以在两个列表上使用RANK然后加入JOIN,但这看起来太昂贵了,因为我在这些列表中有数百万个条目。我有点想和"合并"没有连接参数......

如何在Apache Pig中有效地做到这一点?

1 个答案:

答案 0 :(得分:0)

如果您不关心Age和Name之间的映射,那么您可以尝试两个关系之间的交叉连接。 Post Cross按名称加入群组并保留任何人。然而,IMO,这可能比您上面提到的RANK方法更昂贵(相当资源密集)。