Question

到达某些分析的结尾，我有一个数据框（在示例中为df_delta），其中包含id，组，基线，来源，后续事件和delta_month。

我的方法：与后续事件（df_a_b）合并，联接或串联，然后根据id求和（如代码段中所示的concat）。

import pandas as pd
data_a = {
'id': [3, 2, 1, 0]
,'group':['test','test','control','control']
,'original_event_date': ['2018-01-02', '2018-02-01', '2018-03-20', '2018-01-01']
,'baseline':['100', '20', '1000', '5']
}
df_a = pd.DataFrame.from_dict(data_a)

data_b = {
'id': [3,3,3,3, 1, 0,0]
,'subsequent_event_date': ['2018-02-02','2018-03-02','2018-04-02', '2018-01-15','2018-03-13', '2018-03-20', '2018-04-01']
,'subsequent_events':['3','5','7','2','20', '10', '5']
}
df_b = pd.DataFrame.from_dict(data_b)

#assign original event month to each record [id]
df_a['origination'] = pd.to_datetime(df_a['original_event_date']).dt.strftime('%Y-%m')

#sum subsequent events by record [id]                
df_sum_b = df_b.groupby(by=("id"))["subsequent_events"].sum()

#join the two to get delta_month
df_a_b = pd.concat([df_a, df_b], axis=1, sort=False) 

df_delta = pd.merge(df_a,df_b,how='left',on='id')
df_delta['delta_month'] = (pd.to_datetime(df_delta['subsequent_event_date']).dt.year - pd.to_datetime(df_delta['original_event_date']).dt.year) * 12 \
                    + (pd.to_datetime(df_delta['subsequent_event_date']).dt.month - pd.to_datetime(df_delta['original_event_date']).dt.month)

df_delta = df_delta.drop(columns=['original_event_date','subsequent_event_date']).fillna(0)

理想的输出应包括：测试/控制，原始事件的yyyy-mm，成组的delta_month和每个delta_month的基线总和的百分比。

加入，合并和合并似乎没有此功能。如果每个原始事件都与后续事件相关联，则没有发生后续事件的原始事件值将丢失，并且如果在同一操作中将后续事件和原始事件加在一起，则对应于delta_month的原始事件将是倍数

有人对如何以不同的方式解决这个问题有更好的建议吗？

Answer 1

我会尽可能多地添加未分组的帧（个人喜好），因此使用transform很好。

没有发生后续事件的原始事件值会丢失

可以通过fillna解决。由于看起来您想对subsequent_events进行数字求和，因此我们不妨从一开始就将其强制转换为整数（或浮点数或...）。

df_delta['subsequent_events'] = df_delta['subsequent_events'].fillna('0').astype(int)
df_delta['sum_events_in_month'] = df_delta.groupby(['group','origination','delta_month'])['subsequent_events'].transform('sum').fillna(0)
df_delta['delta_month'].fillna(0, inplace=True)
df_sum_b = df_delta.groupby(['group','origination','delta_month'])[['baseline', 'sum_events_in_month']].apply(lambda x: x.astype(int).sum())

df_sum_b['pct'] = df_sum_b['sum_events_in_month']/df_sum_b['baseline']

（编辑：建议的编辑确实指出了一个缺陷，尽管我认为该解决方案不起作用；代替了.astype(int).fillna(0)，因为缺少的值不能进行整数转换，所以它打破了，我已经交换了.fillna('0').astype(int)的顺序。根据评论，我添加了另外fillna个似乎可以解决问题的方法。）

根据groupby

1 个答案: