如何删除重复数据框但保留和合并来自不同列的数据?

时间:2021-06-11 08:22:20

标签: python excel pandas

我有一个数据框/excel 文件,其中每个唯一对象有两行,其中一个对象的所有列都具有相同的值,只有一列的值不同。我想删除重复的行但保留所有数据。

所以它看起来像:

C1,  C2,     C3, C4;
ID1, Value1, A1, one;
ID1, Value1, A1, two;
ID2, Value2, B2, three;
ID2, Value2, B2, four;

我想将每个唯一的 C1 的重复行合并为一行,但将所有值合并到 C4 的一个字段中。

所以最终结果是:

C1,  C2,     C3, C4;
ID1, Value1, A1, onetwo;
ID2, Value2, B2, threefour;

有什么指点吗?我需要为我使用不同编程语言的项目修复数据处理工作的脚本,我在几年前的大学中唯一使用 Python 和 Pandas 的经验。

1 个答案:

答案 0 :(得分:0)

你可以使用 df.groupby 和 agg

df.groupby(['C1','C2','C3']).agg({'C4': lambda x: ' '.join(x)})