Question

假设我有以下数据框。如何创建一个包含整个ID的平均价格的新列，并计算每个ID的range = 2作为平均值？

dt<-data.frame(id=c(11,11,11,11,12,12,12),range=c(1,1,2,2,1,2,2),price=c(10,20,30,40,10,20,30))

  id range price
1 11     1    10
2 11     1    20
3 11     2    30
4 11     2    40
5 12     1    10
6 12     2    20
7 12     2    30

  id range price price2
1 11     1    10     35
2 11     1    20     35
3 11     2    30     35
4 11     2    40     35
5 12     1    10     25
6 12     2    20     25
7 12     2    30     25

Answer 1

data.table解决方案如下：

library(data.table)
dt=as.data.table(dt)[,price2:=mean(price[range==2]),by=id]

Answer 2

执行此操作的一种方法是使用aggregate函数。下面是一个示例。

dt<-data.frame(id=c(11,11,11,11,12,12,12),range=c(1,1,2,2,1,2,2),price=c(10,20,30,40,10,20,30))
# calculate the menas by id and range
mean_by_group <- aggregate(dt$price, list(id = dt$id, range = dt$range), mean)
# remove other results
mean_by_group <- mean_by_group[mean_by_group$range == 2, ]
# merge back to the original dataframe
dt <- merge(dt, mean_by_group[, c(1, 3)], by = c('id'))

结果如下：

  id range price  x
1 11     1    10 35
2 11     1    20 35
3 11     2    30 35
4 11     2    40 35
5 12     1    10 25
6 12     2    20 25
7 12     2    30 25

或者，您可以使用dplyr和magrittr换行符：

dt %<>% 
  group_by(id, range) %>%
  summarise(price2 = mean(price)) %>%
  filter(range == 2) %>%
  {merge(dt, .[, c(1, 3)], by = 'id')}

这给您：

  id range price price2
1 11     1    10     35
2 11     1    20     35
3 11     2    30     35
4 11     2    40     35
5 12     1    10     25
6 12     2    20     25
7 12     2    30     25

Answer 3

为数据表使用联接

set

R中的数据表-数据分组（视情况而定）

3 个答案: