Question

我发布了一份与here合作的数据样本。

＆＃34;包裹..＆＃34;是主要的索引变量，并且有很多重复。所有其他列中的重复项不一致。我的目标是聚合数据集，以便每个地块只有一个观察点。我使用以下代码尝试求和数字向量：

aggregate(Ap.sample$X.11~Ap.sample$Parcel..,FUN=sum)

问题是除了包裹和我引用的另一个向量之外的所有内容。

我的目标是对该parcelID的某些数值向量（和）（X.11，X.13，X.15，num_units）使用相同的规则，对其他数值向量使用不同的规则（平均值）（ Acres，Ttl_sq_ft，Mtr.Size），对于角色变量仍然是一个不同的规则（只选择一个名称）（假装在那里另一列＆＃34; customer.name＆＃34;具有相同唯一的不同值包裹ID，即＆＃34;史蒂文公寓＆＃34;和＃34;斯蒂芬公寓＆＃34;），并删除所有其他变量的额外观察。

我尝试使用numcolwise功能，但也没有做我需要的功能。我的直觉是指定我想要求和的列以及我想要取平均值的列如下：

DT<-as.data.table(Ap.sample)
sum_cols<-Ap.05[,c(10,12,14)]
mean_cols<-Ap.05[,c(17:19)]

然后使用lapply函数查看每个观察结果并执行我需要的操作。

df05<-DT[,lapply(.SD,sum), by=DT$Parcel..,.SDcols=sum_cols]
df05<-DT[,lapply(.SD,mean),by=DT$Parcel..,.SDcols=mean_cols]

但是第一次出现错误。我知道有一个更简单的解决方法，而不是试图通过它。

Answer 1

你可以这样做：

library(dplyr)
df %>% 
  # create an hypothetical "customer.name" column 
  mutate(customer.name = sample(LETTERS[1:10], size = n(), replace = TRUE)) %>%
  # group data by "Parcel.."
  group_by(Parcel..) %>% 
  # apply sum() to the selected columns
  mutate_each(funs(sum(.)), one_of("X.11", "X.13", "X.15", "num_units")) %>%
  # likewise for mean()
  mutate_each(funs(mean(.)), one_of("Acres", "Ttl_sq_ft", "Mtr.Size")) %>%
  # select only the desired columns 
  select(X.11, X.13, X.15, num_units, Acres, Ttl_sq_ft, Mtr.Size, customer.name) %>%
  # de-duplicate while keeping an arbitrary value (the first one in row order)
  distinct(Parcel..)

删除和聚合重复项

1 个答案: