与当前行列匹配的先前记录的 Pandas 时间序列总和

时间:2021-05-06 19:17:01

标签: python pandas dataframe time-series cumsum

我正在尝试添加一个列,该列表示与给定列的行的当前值匹配的先前记录的累积总和,让我们举个例子。

我的数据是:

|t         |label|qty|cumsum|
|2020-01-05|A    |10 |10    |
|2020-01-06|B    |5  |5     |
|2020-01-06|C    |2  |2     |
|2020-01-07|A    |-5 |5     |
|2020-01-07|A    |2  |7     |
|2020-01-08|B    |-30|-25   |
|2020-01-09|C    |5  |7     |

cumsum 列将总结为“对标签与当前行相同的所有过去记录进行累计总和”

理想情况下,为了代码清晰,我想要一个表达式,例如 df['cumsum']=df.loc[(df['label']==current label) & (df['t'] <= current index)].cumsum(),它不会显式循环 for ix,row in df: 中的每一列

另一方面是累积和是从一开始就完成的,数据帧可能是 20 条记录长或 500k 条记录长。

另外,为了清楚起见,我在示例中只放置了 3 个标签,但我的数据集中可以有几十个标签

我发现了一些其他类似的问题,但它们并不完全适合我的需要:

欢迎任何形式的帮助! 谢谢!

1 个答案:

答案 0 :(得分:1)

df.groupby('label')['qty'].transform('cumsum')
相关问题