我正在尝试过滤一个有3列的数据框,而我正在尝试做的是:按col1和col2分组并获取col3的最大值,并获得col3的第二个最大值,但将其作为新的插入专栏:col 4
我能够使用以下内容对其进行分组,但不知道如何获得第二个最大值并将其作为另一列插入:
grouped = df.groupby(['COL1', 'COL2']).agg({'COL3': 'max'})
COL1 COL2 COL3
0 A 1 0.2
1 A 1 0.4
3 B 4 0.7
通缉输出:
COL1 COL2 COL3 COL4
0 A 1 0.4 0.2
3 B 4 0.7 0.7
答案 0 :(得分:3)
您可以使用.nlargest
。以下解决方案利用了Series
构造函数将广播值以匹配索引形状的事实。
df.groupby(['COL1', 'COL2'])['COL3'].apply(
lambda s: pd.Series(s.nlargest(2).values, index=['COL3', 'COL4'])
).unstack()
返回
COL3 COL4
COL1 COL2
A 1 0.4 0.2
B 4 0.7 0.7
答案 1 :(得分:1)
首先sort_values
用于汇总head
第一个和第二个最大值,然后按iat
选择,以避免错误,如果只有一个值的组:
grouped = (df.sort_values(['COL1','COL2','COL3'], ascending=[True, True, False])
.groupby(['COL1', 'COL2'])['COL3']
.agg(['max', lambda x: x.head(2).iat[-1]])
)
grouped.columns = ['COL3','COL4']
grouped = grouped.reset_index()
print (grouped)
COL1 COL2 COL3 COL4
0 A 1 0.4 0.2
1 B 4 0.7 0.7
答案 2 :(得分:1)
使用分组依据的nlargest函数,然后重置索引:
df2 = df.groupby(
['COL1', 'COL2']
).apply(
lambda x: pd.Series(x.COL3.nlargest(2).values, index=['COL3', 'COL4'])
).reset_index()
输出:
COL1 COL2 COL3 COL4
0 A 1 0.4 0.2
1 B 4 0.7 0.7