Question

我正在寻找将数据分组到R中的小块的答案。让我说我有

df = data.frame(a = c(1, 2, 3, 1, 5), b = c(2, 3, 2, 4, 4))

我想要一个新列来指定组ID。具有相同a或b值的行将被分组为一个组。每个新组的组ID都会递增。

样本的最终输出为

问题实际上并不新鲜。我可以用for循环来解决它

i.range = nrow(a) - 1
j.range = nrow(a)
k = 2
df$group_id = 1

for(i in 1:i.range){
  for(j in 2:j.range){
    #if not a new group
    if (df[j,"a"] == df[i, "a"] | 
          df[j, "b"] == df[i, "b"]) df[j, "group_id"] = df[i, "group_id"]
    else{
      df[j, "group_id"] = k
      k = k+1
    }  
  }
}

问题是我的数据框有超过40k行。两个循环可能会花费它永远运行。

Answer 1

您想要做的事情（如果我理解正确）是在图表中查找群集。您可以将a和b列视为图表中的节点，每行指示节点之间的链接。 a列中的节点与b列中的节点不同（如果我错了，请再次纠正我）。

这是我们的策略：

加载igraph库，让我们构建和分析图表;
通过a为b和factor列的每个不同值提供数字索引，并考虑b列索引必须与a列不同{1}}个;
根据前一点获得的matrix构建图表;
调用igraph::clusters函数，该函数为每个节点返回它所属的集群;
最终指示原始data.frame相对群集的每一行。

我们在这里：

require(igraph)
#make a copy of the original df, just in case you want to preserve it
df2<-df
#getting indices for each "node"
df[]<-lapply(df,function(x) as.numeric(factor(x)))
#getting different indices for the b column
df$b<-df$b + max(df$a)
#building the graph
mygraph<-graph.edgelist(as.matrix(df))
#obtaining the clusters
clus<-clusters(mygraph)
#and finally..
df2$group<-clus$membership[df$a]
#  a b group
#1 1 2     1
#2 2 3     2
#3 3 2     1
#4 1 4     1
#5 5 4     1

将数据分组为小块（大数据问题）

1 个答案: