Python - 两个数据集的所有成对组合有效

时间:2013-01-09 05:41:50

标签: python merge dataset

我想创建一个由两个csv列的所有成对组合组成的数据集。我正在使用Stata,但它只允许2,147,483,647次观察。我对python并不是很了解。我可以用Python做,最好是有效吗?我可以做一些循环,但我想这将需要永远。

这是一个例子:我有像这样的a.csv(作为列:): 1 2 3 我有像这样的b.csv(作为专栏:) 一个 b C 我希望这作为输出: 1,一个 1,B 1,C 2,一个 2,B 2,C ... a.csv和b.csv各有约700万条记录。 任何帮助? 谢谢!

编辑:如果我能成对地进行“组内”,这也非常有用。想象一下,a.csv和b.csv都有另一个专栏,比如性别。而且我想做所有成对的男性和所有成对的女性(当然它要复杂得多。属性数据有超过100个类别。)

1 个答案:

答案 0 :(得分:0)

Python擅长这些东西。 如果两个csv文件非常大并且python为它提供了迭代。

for line1 in open('really_big_file.csv'):
    for line2 in open('really_big_file.csv'):
        combine(line1, line2)

Python将为每个行数据发布并释放它,它是自动的。