Question

我有以下数据框：

event_id  occurred_at  user_id
   19148   2015-10-01        1
   19693   2015-10-05        2
   20589   2015-10-12        1
   20996   2015-10-15        1
   20998   2015-10-15        1
   23301   2015-10-23        2
   23630   2015-10-26        1
   25172   2015-11-03        1
   31699   2015-12-11        1
   32186   2015-12-14        2
   43426   2016-01-13        1
   68300   2016-04-04        2
   71926   2016-04-19        1

我想按时间顺序（1到n）为每个用户排列事件。

我可以通过以下方式实现这一目标：

df.groupby('user_id')['occurred_at'].rank(method='dense')

然而，对于那两行，发生在同一天（对于同一个用户），我最终得到相同的等级：

   20996   2015-10-15        1
   20998   2015-10-15        1

如果事件日期相同，我想比较event_id和任意排名较低的事件与最低event_id。我怎样才能轻松实现这一目标？

我可以发布排名以确保每个排名仅使用一次，但这看起来相当笨重......

修改：如何重现：

复制粘贴data.csv文件中的数据。然后：

import pandas as pd
df = pd.read_csv('data.csv', delim_whitespace=True)
df['rank'] = df.groupby('user_id')['occurred_at'].rank(method='dense')
>>> df[df['user_id'] == 1]
    event_id occurred_at  user_id  rank
0      19148  2015-10-01        1   1.0
2      20589  2015-10-12        1   2.0
3      20996  2015-10-15        1   3.0 <--
4      20998  2015-10-15        1   3.0 <--
6      23630  2015-10-26        1   4.0
7      25172  2015-11-03        1   5.0
8      31699  2015-12-11        1   6.0
10     43426  2016-01-13        1   7.0
12     71926  2016-04-19        1   8.0

使用python3和pandas 0.18.1

Answer 1

在分组之前

sort_values('event_id')然后将method='first'传递给rank

另请注意，如果occurred_at尚未datetime，请将其设为datetime。

# unnecessary if already datetime, but doesn't hurt to do it anyway
df.occurred_at = pd.to_datetime(df.occurred_at) 

df['rank'] = df.sort_values('event_id') \
                 .groupby('user_id').occurred_at \
                 .rank(method='first')
df

完整可验证代码的参考

from StringIO import StringIO
import pandas as pd

text = """event_id  occurred_at  user_id
   19148   2015-10-01        1
   19693   2015-10-05        2
   20589   2015-10-12        1
   20996   2015-10-15        1
   20998   2015-10-15        1
   23301   2015-10-23        2
   23630   2015-10-26        1
   25172   2015-11-03        1
   31699   2015-12-11        1
   32186   2015-12-14        2
   43426   2016-01-13        1
   68300   2016-04-04        2
   71926   2016-04-19        1"""

df = pd.read_csv(StringIO(text), delim_whitespace=True)

df.occurred_at = pd.to_datetime(df.occurred_at) 

df['rank'] = df.sort_values('event_id').groupby('user_id').occurred_at.rank(method='first')

df

熊猫排名基于几个专栏

1 个答案:

完整可验证代码的参考