Python:合并文件并删除重复项

时间:2018-10-31 02:17:24

标签: python pandas duplicates

我有3个excel文件,每个文件有4000行和5列。我希望将Excel文件合并到一个数据框中,并删除重复的行。随后,我希望将结果发布为excel文件:

 import pandas as pd

 import numpy as np

 filenames = ['Sample_a.xlsx','Sample_b.xlsx','Sample_c.xlsx']

 dataframes = [pd.read_excel(f) for f in filenames]

 new_dataframe = df.dropduplicates(dataframes)

我在哪里错了?

2 个答案:

答案 0 :(得分:2)

将excel文件转换为dataframes变量的列表后,需要将其转换为数据框。我找到了一个解决方案,希望您能在这里看到答案。

`import pandas as pd
import numpy as np

filenames = ['csv/2009.xlsx', 'csv/2010.xlsx', 'csv/2011.xlsx']
olddf=pd.DataFrame()
for f in filenames:
    df=pd.read_excel(f)
    olddf=pd.concat([olddf,df]).drop_duplicates().reset_index(drop=True)`

答案 1 :(得分:0)

很难重现您的结果(我们不知道您的文件中有什么内容),但是您正在尝试从数据帧列表中消除重复项。您不应该对数据框本身进行操作吗?

new_dataframes = [df.drop_duplicates(d) for d in dataframes]