Question

如果pandas DataFrame包含group，x和y（每group个值的多个记录）的列，我＆＃ 39; d想要创建一个新DataFrame，每group行一行，以及该组中x和y值的关联统计量。我想用groupby执行此操作，而不是循环。

示例：

import pandas as pd
import numpy as np
from scipy import stats

N = 100  # Observations per group.
tt_df = pd.DataFrame({'group': np.append(['A'] * N, ['B'] * N),
                      'x': np.random.randn(2 * N)})
tt_df['y'] = tt_df['x'] + np.random.randn(2 * N)
stats.ttest_ind(tt_df['x'], tt_df['y'])[0]  # -0.32 global t statistic.

Answer 1

generate pc1p = prodcategory==1 & promo==1
bysort week (product): egen tag1 = max(pc1p)

计算pandas DataFrame中每个组的t检验统计量

1 个答案: