通过dicts列表过滤pandas DataFrame

时间:2015-09-24 15:06:21

标签: python pandas indexing filter

我有任意长度的DataFrame,有X列(比方说10):

>>> names = ['var_' + str(x) for x in range(1, 11)]
>>> names
['var_1', 'var_2', 'var_3', 'var_4', 'var_5', 'var_6', 'var_7', 'var_8', 'var_9', 'var_10']
>>> df = pd.DataFrame(np.random.randint(100, size=(10,10)), columns = names)
>>> df
   var_1  var_2  var_3  var_4  var_5  var_6  var_7  var_8  var_9  var_10
0     39     49      6     39     16     41      8     86     23      52
1      6     16     21     20     81     97     83     25     56      73
2     72     97     43     50     10     46     22     75      7      18
3     20     35     69     59     14     24     57     31     47      20
4     39     93     45     80     74     87     83     50     52      67
5     93     75     83     67     40     46     79     11     31      95
6     75     76     57     82     69     98     74     75     93      13
7     35     19     28     67     39     23     72     16     63      67
8     93     87     52     25     63     29     46     64     78      12
9     81     43      4     90     88     64      1     83     26      22

现在我想使用dicts列表逐行过滤此DataFrame:

>>> test_dict_1 = {'var_1': 89, 'var_2': 12, 'var_3': 34}
>>> test_dict_2 = {'var_7': 3, 'var_2': 11, 'var_4': 19, 'var_1': 9}
>>> test_dict_3 = {'var_3': 31}
>>> filter = [test_dict_1, test_dict_2, test_dict_3]

要得到一些结果(dict?DataFrame?少数DataFrame?),它只包含那些至少有一个传递过滤器的行(即所有变量在行中都与过滤器中的值相同)。除此之外,我需要知道哪些过滤器通过了。

我对熊猫很新,所以如果我能做到这一点,我有点困惑,因为"对于#34;循环。有什么解决方案吗?

我知道链式解决方案,如df [(df.A == 1)& (df.D == 6)],但它是否可能有几个不同的过滤器? 最终目标是让所有标记过滤器的行都没有循环。

1 个答案:

答案 0 :(得分:0)

我不确定我是否做得对,但如果您想通过字典中的少数条件过滤数据框,则可以执行以下操作:

In [107]: df
Out[107]: 
   var_1  var_2  var_3  var_4  var_5  var_6  var_7  var_8  var_9  var_10
0     45     36     84     24     86     26     44      6     44      15
1     72     16     67     75     87     89      8     68     32      49
2      9     49      0      4     77     75     65      9     45      70

test_dict_1 = {'var_1': 72, 'var_2': 16, 'var_3': 67}

cond = True
for var in test_dict_1.keys():
    cond = cond & (df[var] == test_dict_1[var])
    df = df.loc[cond]

然后你会得到:

In [109]: df
Out[109]: 
   var_1  var_2  var_3  var_4  var_5  var_6  var_7  var_8  var_9  var_10
1     72     16     67     75     87     89      8     68     32      49