Question

我有两个数据帧。我的第一个数据框有两列，我想用它来创建条件并从第二个数据帧返回一个值。

df1 = (['a', 'a', 'b', 'c'], [0.4, 0.9, 0.1, 0.6])

df2 = (['a', 'a', 'b', 'b', 'c', 'c'], [0.2, 0.6, 0.3, 0.8, 0.1, 0.4], 
              [500, 200, 900, 400, 250, 800])

对于df1中的每一行，我想通过两列数据查找df2。第一个条件是将df1中的字母与df2匹配。第二个条件是在df2中查找第一个数字行，其中数字大于df1。如果没有更大的数字，请取df2中与该字母匹配的第一行。

我的目标输出是：

df1 row [0] = 500＃＆＃39; a＆＃39;匹配＆＃39; a＆＃39; ＆安培; 0.4大于0.2
df1 row [1] = 200＃＆＃39; a＆＃39;匹配＆＃39; a＆＃39; ＆安培; 0.9大于0.6
df1 row [2] = 900＃＆＃39; b＆＃39;比赛＆＃39; b＆＃39; ＆安培;没有行大于0.1所以首先返回＆＃39; b＆＃39;行
df1 row [3] = 800＃＆＃39; c＆＃39;匹配＆＃39; c＆＃39; ＆安培; 0.6大于0.4

对于我的问题格式不佳的道歉，请提供有关发布的任何建议（这是我的第一个）。

非常感谢！

Answer 1

我认为更好的是避免迭代我将df1和df2的数据合并为a列。输出的行数比原始df1多两倍。然后条件由np.where应用，输出转换为整数。系列s包含输出，每个奇数值。（因为合并了df1中的一行和df2）

中的两行

#   a    b
#0  a  0.4
#1  a  0.9
#2  b  0.1
#3  c  0.6

#   a    c    d
#0  a  0.2  500
#1  a  0.6  200
#2  b  0.3  900
#3  b  0.8  400
#4  c  0.1  250
#5  c  0.4  800  

#merged data - intersection df1 and df2 by column a
df = pd.merge(df1, df2, on=['a'], how='inner')
#apply condition
s = np.where(df['c']< df['b'], df['d'], df['d'].shift(1)).astype('int')
#odd values
s = s[1::2]
#[500 200 900 800]

#if need add data do df1 as column e
#df1['e'] = pd.Series(s, index=df1.index)

迭代解决方案（Delforge）：

100 loops, best of 3: 4.67 ms per loop

合并解决方案（我）：

100 loops, best of 3: 1.93 ms per loop

Answer 2

您可以迭代df1并根据第0列字母进行选择，并且大于两列之间的比较1.假设您的第1列值是升序，如果所选数据帧不为空，则存储第2列的最后一个值。如果为空，则获得与列0选择匹配的第一个df2 col 2值。

这是一个例子，我将结果存储在一个字典中。

示例：

您的数据

import pandas as pd

df1 = pd.DataFrame(data = [['a', 'a', 'b', 'c'], [0.4, 0.9, 0.1, 0.6]]).transpose()

df2 = pd.DataFrame(data = [['a', 'a', 'b', 'b', 'c', 'c'], [0.2, 0.6, 0.3, 0.8, 0.1, 0.4], [500, 200, 900, 400, 250, 800]]).transpose()

迭代：

results = {} # dictionnary to store results

for i, row in df1.iterrows():
    select = df2[(df2[0] == row[0]) & (df2[1] < row[1])] # selection

    if not select.empty:
        results[i] = select[2].iloc[-1] # storing last value of column 2
    else:
        results[i] = df2[df2[0] == row[0]][2].iloc[0] # storing first value if no greater than match

print results # {0: 500, 1: 200, 2: 900, 3: 800}

查找匹配条件的数据帧中的第一行

2 个答案: