因子列上group_by的性能

时间:2018-06-14 07:41:39

标签: r performance dplyr

我有一个严重的性能问题,操作相当简单。事实上,即使经过几个小时的运行代码,我也根本得不到任何结果。

我的数据框由10个变量的大约400k记录组成。该操作的代码是:

"abo": {
    "name": "TestAbo",
    "price": 25
}

其中X1-X4是所有因素(1600 - 5600级)。问题可能是我的ID变量也是一个因素(184573水平)?如果是这样,我该如何解决这个问题呢?我在数据框中使用了类似的代码,其中ID是一个i​​nt并且工作正常。

然而,由于我当前的数据集无法更改为a2 <- dat %>% group_by(X1,X2,X3,X4) %>% summarise(a = length(unique(ID))) ,因此更改为int似乎没有意义。有人有答案吗?

0 个答案:

没有答案