将其他参数传递给Pandas Custom Accessor

时间:2019-06-06 14:17:26

标签: python pandas

我正在为Pandas Dataframe编写自定义访问器类-我已在此处遵循示例并取得了积极的成果。但是我有一个函数想要传递其他参数。

我已经在我的访问器类中创建了此函数:

    @property
    def accessor_function(self, time_window=0.5):
        def group_function(df, time):
            fl = df.loc[df.Type_num==0]
            id = fl.Time.idxmin() 
            threshold = df.loc[id, 'column'] + time
        return fl.loc[fl.Time<threshold]

    self.Subset = self._obj.groupby(by['col_1','col_2']).apply(group_function, time_window)
    self.Subset.reset_index(drop=True, inplace=True)

    return self.Subset

如果我这样称呼它,则可以使用time_window=0.5

df.accessor.accessor_function

但是,如果我想为关键字参数传递一个不同的值:

df.accessor.accessor_function(time_window = 1)

我得到一个错误:

TypeError: 'DataFrame' object is not callable

我找不到任何明显的文档来说明将argskwargs传递给自定义访问器。所以我不确定我尝试的事情是否可能。但最好了解如何前进。

1 个答案:

答案 0 :(得分:2)

我认为这与以下事实有关:实际上您有方法时,您正在使用porperty装饰器。如果删除它,它应该可以正常工作,请参见以下示例:

import pandas as pd
@pd.api.extensions.register_dataframe_accessor("accessor")
class MyAccessor:
    def __init__(self, pandas_obj):
        self._obj = pandas_obj

    def accessor_function(self, time_window=0.5):
        def group_function(df, time):
            fl = df.loc[df.Type_num==0]
            id = fl.Time.idxmin() 
            threshold = df.loc[id, 'column'] + time
            return fl.loc[fl.Time<threshold]

        self.Subset = self._obj.groupby(['col_1','col_2']).apply(group_function, time_window)
        self.Subset.reset_index(drop=True, inplace=True)

        return self.Subset

默认情况是:

>>> a = pd.DataFrame({'Type_num': [False, False,False,False,False], 
                      'Time': [1, 2, 0.1, 0.2, 0.5],
                      'col_1': ['A', 'B', 'C', 'D', 'E'], 
                      'col_2': ['A', 'A', 'C', 'E', 'E'],
                      'column': [0.2, 0.2,0.2, 0.2,0.2]})
>>> a.accessor.accessor_function()
   Type_num  Time col_1 col_2  column
0     False   0.1     C     C     0.2
1     False   0.2     D     E     0.2
2     False   0.5     E     E     0.2

您可以使用自定义的time_window

>>> a.accessor.accessor_function(time_window=1)
   Type_num  Time col_1 col_2  column
0     False   1.0     A     A     0.2
1     False   0.1     C     C     0.2
2     False   0.2     D     E     0.2
3     False   0.5     E     E     0.2

或使用*arg**kwargs传递该参数:

>>> a.accessor.accessor_function(*[2])
   Type_num  Time col_1 col_2  column
0     False   1.0     A     A     0.2
1     False   2.0     B     A     0.2
2     False   0.1     C     C     0.2
3     False   0.2     D     E     0.2
4     False   0.5     E     E     0.2

>>> a.accessor.accessor_function(**{'time_window':0.1})
   Type_num  Time col_1 col_2  column
0     False   0.1     C     C     0.2
1     False   0.2     D     E     0.2