大熊猫第一次发现

时间:2016-12-21 04:39:19

标签: python pandas

假设我有一个结构化数据框,如下所示:

df = pd.DataFrame({"A":['a','a','a','b','b'],"B":[1]*5})

先前已对A列进行了排序。我希望找到df[df.A!='a']所在的第一行索引。最终目标是使用此索引将数据框拆分为基于A的组。

现在我意识到有一个groupby功能。但是,数据帧非常大,这是一个简化的玩具示例。由于A已经排序,如果我能找到df.A!='a'的第一个索引,会更快。因此,无论您使用何种方法,一旦找到第一个元素,扫描就会停止,这一点非常重要。

6 个答案:

答案 0 :(得分:16)

如果最大值出现多次,

idxmaxargmax将返回最大值或第一个位置的位置。

idxmax

上使用df.A.ne('a')
df.A.ne('a').idxmax()

3

numpy等效

(df.A.values != 'a').argmax()

3

但是,如果A已经排序,那么我们可以使用searchsorted

df.A.searchsorted('a', side='right')

array([3])

numpy等效

df.A.values.searchsorted('a', side='right')

3

答案 1 :(得分:5)

我发现有Pandas DataFrames的first_valid_index函数可以完成这项工作,可以如下使用它:

df[df.A!='a'].first_valid_index()

3

但是,此功能似乎很慢。即使采用过滤后的数据帧的第一个索引也更快:

df.loc[df.A!='a','A'].index[0]

下面,我比较这两个选项和上面所有代码的重复计算的总时间(秒)100次。

                      total_time_sec    ratio wrt fastest algo
searchsorted numpy:        0.0007        1.00
argmax numpy:              0.0009        1.29
for loop:                  0.0045        6.43
searchsorted pandas:       0.0075       10.71
idxmax pandas:             0.0267       38.14
index[0]:                  0.0295       42.14
first_valid_index pandas:  0.1181      168.71

注意numpy的搜索结果是获胜者,而first_valid_index显示的是最差的效果。通常,numpy算法更快,并且for循环并没有那么糟糕,但这只是因为数据帧中的条目很少。

对于具有10,000个条目的数据框,其中所需的条目更接近末端,结果是不同的,其中搜索排序可提供最佳性能:

                     total_time_sec ratio wrt fastest algo
searchsorted numpy:        0.0007       1.00
searchsorted pandas:       0.0076      10.86
argmax numpy:              0.0117      16.71
index[0]:                  0.0815     116.43
idxmax pandas:             0.0904     129.14
first_valid_index pandas:  0.1691     241.57
for loop:                  9.6504   13786.29

产生这些结果的代码如下:

import timeit

# code snippet to be executed only once 
mysetup = '''import pandas as pd
import numpy as np
df = pd.DataFrame({"A":['a','a','a','b','b'],"B":[1]*5})
'''

# code snippets whose execution time is to be measured   
mycode_set = ['''
df[df.A!='a'].first_valid_index()
''']
message = ["first_valid_index pandas:"]

mycode_set.append( '''df.loc[df.A!='a','A'].index[0]''')
message.append("index[0]: ")

mycode_set.append( '''df.A.ne('a').idxmax()''')
message.append("idxmax pandas: ")

mycode_set.append(  '''(df.A.values != 'a').argmax()''')
message.append("argmax numpy: ")

mycode_set.append( '''df.A.searchsorted('a', side='right')''')
message.append("searchsorted pandas: ")

mycode_set.append( '''df.A.values.searchsorted('a', side='right')''' )
message.append("searchsorted numpy: ")

mycode_set.append( '''for index in range(len(df['A'])):
    if df['A'][index] != 'a':
        ans = index
        break
        ''')
message.append("for loop: ")

total_time_in_sec = []
for i in range(len(mycode_set)):
    mycode = mycode_set[i]
    total_time_in_sec.append(np.round(timeit.timeit(setup = mysetup,\
         stmt = mycode, number = 100),4))

output = pd.DataFrame(total_time_in_sec, index = message, \
                      columns = ['total_time_sec' ])
output["ratio wrt fastest algo"] = \
np.round(output.total_time_sec/output["total_time_sec"].min(),2)

output = output.sort_values(by = "total_time_sec")
display(output)

对于较大的数据框:

mysetup = '''import pandas as pd
import numpy as np
n = 10000
lt = ['a' for _ in range(n)]
b = ['b' for _ in range(5)]
lt[-5:] = b
df = pd.DataFrame({"A":lt,"B":[1]*n})
'''

答案 2 :(得分:1)

如果你想要在不经过整个数据帧的情况下找到第一个实例,你可以采用循环方式。

df = pd.DataFrame({"A":['a','a','a','b','b'],"B":[1]*5})
for index in range(len(df['A'])):
    if df['A'][index] != 'a':
        print(index)
        break

索引是第一个索引的行号,其中df.A!='a'

答案 3 :(得分:1)

使用 pandas groupby() 按列或列列表分组。然后 first() 获取每组中的第一个值。

import pandas as pd

df = pd.DataFrame({"A":['a','a','a','b','b'],
                   "B":[1]*5})

#Group df by column and get the first value in each group                   
grouped_df = df.groupby("A").first()

#Reset indices to match format
first_values = grouped_df.reset_index()

print(first_values)
>>>    A  B
   0   a  1
   1   b  1

答案 4 :(得分:0)

对于多种情况:

让我们说:

s = pd.Series(['a', 'a', 'c', 'c', 'b', 'd'])

我们想找到与 a c 不同的第一项,我们这样做:

n = np.logical_and(s.values != 'a', s.values != 'c').argmax()

时间:

import numpy as np
import pandas as pd
from datetime import datetime

ITERS = 1000

def pandas_multi_condition(s):
    ts = datetime.now()
    for i in range(ITERS):
        n = s[(s != 'a') & (s != 'c')].index[0]
    print(n)
    print(datetime.now() - ts)

def numpy_bitwise_and(s):
    ts = datetime.now()
    for i in range(ITERS):
        n = np.logical_and(s.values != 'a', s.values != 'c').argmax()
    print(n)
    print(datetime.now() - ts)

s = pd.Series(['a', 'a', 'c', 'c', 'b', 'd'])

print('pandas_multi_condition():')
pandas_multi_condition(s)
print()
print('numpy_bitwise_and():')
numpy_bitwise_and(s)

输出:

pandas_multi_condition():
4
0:00:01.144767

numpy_bitwise_and():
4
0:00:00.019013

答案 5 :(得分:0)

您可以按数据帧行进行迭代(速度很慢),并创建自己的逻辑来获取所需的值:

def getMaxIndex(df, col)
    max = -999999
    rtn_index = 0
    for index, row in df.iterrows():
            if row[col] > max:
                max = row[col]
                rtn_index = index
    return rtn_index