在数据框中查找唯一的行组

时间:2015-01-14 06:26:34

标签: r dataframe grouping

我有一个数据框,我想比较一组行,只有当整个组相同时才删除。例如:

df<-data.frame(X=c("a", "a", "a", "b", "b", "b", "c", "c", "c"), Y=c(1,2,1,2,2,2,1,2,1), Z=c("ABC","DEF","ABC", "DEF", "DEF", "DEF", "ABC", "DEF", "ABC"))

  X Y   Z
1 a 1 ABC
2 a 2 DEF
3 a 1 ABC
4 b 2 DEF
5 b 2 DEF
6 b 2 DEF
7 c 1 ABC
8 c 2 DEF
9 c 1 ABC

此处组由列X标识,我想在不同组之间进行比较。所以,这里组a和组c是相同的。我希望得到最终的预期结果如下:

  GroupID Y   Z
1 1       1 ABC
2 1       2 DEF
3 1       1 ABC
4 2       2 DEF
5 2       2 DEF
6 2       2 DEF

我知道如何进行这种比较?

2 个答案:

答案 0 :(得分:2)

您可能需要查看“compare”包中的compare函数。这是一种可能性:

library(compare)
x <- with(df, split(df[-1], df[[1]]))
Splits <- combn(names(x), 2)
Comparison <- apply(Splits, 2, function(y) {
  compare(x[y[1]], x[y[2]], allowAll = TRUE)$result
})
Splits[, Comparison]
# [1] "a" "c"

由此我们可以看到组“a”和“c”是重复的,我们可以使用它来对原始数据集进行子集化。


我在这个答案中使用了allowAll = TRUE,但您可能希望查看compare中可用的其他选项,以确定您在比较中实际想要允许的转换。

答案 1 :(得分:2)

base R可能性:

# For each 'X', collapse 'Y' and 'Z' to a vector
l <- by(df[ , c("Y", "Z")], df$X, function(dat) paste0(dat, collapse = ""))

# select names of unique list elements
nm <- names(l)[!duplicated(l)]

# use these names to subset the data frame
df[df$X %in% nm, ]
#   X Y   Z
# 1 a 1 ABC
# 2 a 2 DEF
# 3 a 1 ABC
# 4 b 2 DEF
# 5 b 2 DEF
# 6 b 2 DEF