合并大型数据集的最快方法

时间:2018-06-27 11:28:51

标签: r data.table sparklyr

重做具有两个数据帧的当前进程。

DF1-65kish行,15列 DF2-300kish行,270列

我们正在通过zip进行合并:

  newdf <- merge(df1, df2, by.x = "ZipA", by.y = "ZipB")

这很慢,并且可能会终止,具体取决于EC2实例上当前正在运行的内容。重要说明:每个DF中的邮编不是唯一的(这是设计使然)人们会建议其他哪些选择?

sqldf? data.table? sparklyr(我们有一个spark后端设置,但是没有人使用它)?

在这里,如何使它更有效确实是一个迷茫,但恐怕我们可能会由于数据的构造而陷入困境。

0 个答案:

没有答案