根据重复提取一定数量的行?

时间:2019-02-03 15:08:12

标签: python dataframe group-by size unique-constraint

我有一个数据框– mydata-,其中包含2000余行,如下所示:

Id  Name    Score
R1  sam       76
R1  Sosan     8
...      ...     ...
R4   jack     2
R4   Tom      76
R4   samy     8
R5   Check    9 
…     ...     ..
R6     Anderson   2
...       ...     ..

现在,我想提取重复超过一定数量的ID,例如4。我可以按组和大小来提取唯一编号的大小:

Mydata.groupby(by=[‘Id’]).size()

但是,我不能仅基于阈值提取ID。

1 个答案:

答案 0 :(得分:1)

您可以尝试使用value_counts来计数Id的出现,然后根据出现的次数过滤Series的结果:

num = 2
s = df['Id'].value_counts()
print(s[s>num].index.values)
相关问题