Question

我已经看到了几个解决我的问题的解决方案

link1 link2

但到目前为止他们还没有帮助我成功。

我认为以下解决方案是我需要的，但是继续出现错误（我没有声誉点可以评论/提问）：link

（我收到以下错误，但在管理以下命令.copy()时，我不明白inplace=True的位置或添加“df2=df.groupby('install_site').transform(replace)”：

SettingWithCopyWarning：尝试在DataFrame的切片副本上设置值。请尝试使用.loc[row_indexer,col_indexer] = value代替

请参阅文档中的警告：link

所以，我试图提出自己的版本，但我一直陷入困境。到此为止。

我有一个按时间索引的数据框，其中包含site的列（许多不同站点的字符串值）和浮点值。

time_index            site       val

我想通过按站点分组的'val'列，并用NaN（每组）替换任何异常值（与平均值的+/- 3标准偏差）。

当我使用以下函数时，我无法用我的True / Falses向量索引数据框：

def replace_outliers_with_nan(df, stdvs):
    dfnew=pd.DataFrame()
    for i, col in enumerate(df.sites.unique()):
        dftmp = pd.DataFrame(df[df.sites==col])
        idx = [np.abs(dftmp-dftmp.mean())<=(stdvs*dftmp.std())] #boolean vector of T/F's
        dftmp[idx==False]=np.nan  #this is where the problem lies, I believe
        dfnew[col] = dftmp
    return dfnew

另外，我担心上面的函数需要花费很长时间才能生成700万行，这就是我希望使用groupby函数选项的原因。

Answer 1

如果我理解正确，则无需迭代列。该解决方案用NaN替换所有偏离三组标准偏差的值。

def replace(group, stds):
    group[np.abs(group - group.mean()) > stds * group.std()] = np.nan
    return group

# df is your DataFrame
df.loc[:, df.columns != group_column] = df.groupby(group_column).transform(lambda g: replace(g, 3))

删除异常值（+/- 3 std）并用Python / pandas中的np.nan替换

1 个答案: