Question

我正在尝试过滤一个有3列的数据框，而我正在尝试做的是：按col1和col2分组并获取col3的最大值，并获得col3的第二个最大值，但将其作为新的插入专栏：col 4

我能够使用以下内容对其进行分组，但不知道如何获得第二个最大值并将其作为另一列插入：

grouped = df.groupby(['COL1', 'COL2']).agg({'COL3': 'max'})

   COL1  COL2  COL3
0   A    1      0.2 
1   A    1      0.4
3   B    4      0.7

通缉输出：

   COL1  COL2  COL3  COL4
0   A    1      0.4  0.2
3   B    4      0.7  0.7

Answer 1

您可以使用.nlargest。以下解决方案利用了Series构造函数将广播值以匹配索引形状的事实。

df.groupby(['COL1', 'COL2'])['COL3'].apply(
    lambda s: pd.Series(s.nlargest(2).values, index=['COL3', 'COL4'])
).unstack()

返回

           COL3  COL4
COL1 COL2            
A    1      0.4   0.2
B    4      0.7   0.7

Answer 2

首先sort_values用于汇总head第一个和第二个最大值，然后按iat选择，以避免错误，如果只有一个值的组：

grouped = (df.sort_values(['COL1','COL2','COL3'], ascending=[True, True, False])
             .groupby(['COL1', 'COL2'])['COL3']
             .agg(['max', lambda x: x.head(2).iat[-1]])
          )
grouped.columns = ['COL3','COL4']
grouped = grouped.reset_index()
print (grouped)
  COL1  COL2  COL3  COL4
0    A     1   0.4   0.2
1    B     4   0.7   0.7

Answer 3

使用分组依据的nlargest函数，然后重置索引：

df2 = df.groupby(
          ['COL1', 'COL2']
      ).apply(
          lambda x: pd.Series(x.COL3.nlargest(2).values, index=['COL3', 'COL4'])
      ).reset_index()

输出：

   COL1  COL2  COL3  COL4
0   A    1      0.4  0.2
1   B    4      0.7  0.7

pandas groupby并添加新专栏

3 个答案: