Question

使用数据框：

df <- data.frame(id = rep(1:3, each = 5)
                 , hour = rep(1:5, 3)
                 , value = sample(1:15))

我想添加一个与id匹配的累积和列：

df
   id hour value csum
1   1    1     7    7
2   1    2     9   16
3   1    3    15   31
4   1    4    11   42
5   1    5    14   56
6   2    1    10   10
7   2    2     2   12
8   2    3     5   17
9   2    4     6   23
10  2    5     4   27
11  3    1     1    1
12  3    2    13   14
13  3    3     8   22
14  3    4     3   25
15  3    5    12   37

我该如何有效地做到这一点？谢谢！

Answer 1

df$csum <- ave(df$value, df$id, FUN=cumsum)

Answer 2

要添加替代方案，data.table的语法很好：

library(data.table)
DT <- data.table(df, key = "id")
DT[, csum := cumsum(value), by = key(DT)]

或者，更紧凑：

library(data.table)
setDT(df)[, csum := cumsum(value), id][]

以上将：

按引用

data.frame

data.table

计算按ID分组的值的累计和，并按引用分配
打印（最后[]）整个操作的结果

“df”现在是data.table，其中包含“csum”列。

Answer 3

使用库plyr。

library(plyr)
ddply(df,.(id),transform,csum=cumsum(value))

Answer 4

使用dplyr ::

require(dplyr)
df %>% group_by(id) %>% mutate(csum = cumsum(value))

计算每个ID（组）内的累积总和

4 个答案: