如果pandas
DataFrame
包含group
,x
和y
(每group
个值的多个记录)的列,我&# 39; d想要创建一个新DataFrame
,每group
行一行,以及该组中x
和y
值的关联统计量。我想用groupby
执行此操作,而不是循环。
示例:
import pandas as pd
import numpy as np
from scipy import stats
N = 100 # Observations per group.
tt_df = pd.DataFrame({'group': np.append(['A'] * N, ['B'] * N),
'x': np.random.randn(2 * N)})
tt_df['y'] = tt_df['x'] + np.random.randn(2 * N)
stats.ttest_ind(tt_df['x'], tt_df['y'])[0] # -0.32 global t statistic.
答案 0 :(得分:1)
generate pc1p = prodcategory==1 & promo==1
bysort week (product): egen tag1 = max(pc1p)