pandas groupby并添加新专栏

时间:2018-02-05 21:43:12

标签: python pandas

我正在尝试过滤一个有3列的数据框,而我正在尝试做的是:按col1和col2分组并获取col3的最大值,并获得col3的第二个最大值,但将其作为新的插入专栏:col 4

我能够使用以下内容对其进行分组,但不知道如何获得第二个最大值并将其作为另一列插入:

grouped = df.groupby(['COL1', 'COL2']).agg({'COL3': 'max'})

   COL1  COL2  COL3
0   A    1      0.2 
1   A    1      0.4
3   B    4      0.7   

通缉输出:

   COL1  COL2  COL3  COL4
0   A    1      0.4  0.2
3   B    4      0.7  0.7 

3 个答案:

答案 0 :(得分:3)

您可以使用.nlargest。以下解决方案利用了Series构造函数将广播值以匹配索引形状的事实。

df.groupby(['COL1', 'COL2'])['COL3'].apply(
    lambda s: pd.Series(s.nlargest(2).values, index=['COL3', 'COL4'])
).unstack()

返回

           COL3  COL4
COL1 COL2            
A    1      0.4   0.2
B    4      0.7   0.7

答案 1 :(得分:1)

首先sort_values用于汇总head第一个和第二个最大值,然后按iat选择,以避免错误,如果只有一个值的组:

grouped = (df.sort_values(['COL1','COL2','COL3'], ascending=[True, True, False])
             .groupby(['COL1', 'COL2'])['COL3']
             .agg(['max', lambda x: x.head(2).iat[-1]])
          )
grouped.columns = ['COL3','COL4']
grouped = grouped.reset_index()
print (grouped)
  COL1  COL2  COL3  COL4
0    A     1   0.4   0.2
1    B     4   0.7   0.7

答案 2 :(得分:1)

使用分组依据的nlargest函数,然后重置索引:

df2 = df.groupby(
          ['COL1', 'COL2']
      ).apply(
          lambda x: pd.Series(x.COL3.nlargest(2).values, index=['COL3', 'COL4'])
      ).reset_index()

输出:

   COL1  COL2  COL3  COL4
0   A    1      0.4  0.2
1   B    4      0.7  0.7