Question

我有一个数据框/excel 文件，其中每个唯一对象有两行，其中一个对象的所有列都具有相同的值，只有一列的值不同。我想删除重复的行但保留所有数据。

所以它看起来像：

C1,  C2,     C3, C4;
ID1, Value1, A1, one;
ID1, Value1, A1, two;
ID2, Value2, B2, three;
ID2, Value2, B2, four;

我想将每个唯一的 C1 的重复行合并为一行，但将所有值合并到 C4 的一个字段中。

所以最终结果是：

C1,  C2,     C3, C4;
ID1, Value1, A1, onetwo;
ID2, Value2, B2, threefour;

有什么指点吗？我需要为我使用不同编程语言的项目修复数据处理工作的脚本，我在几年前的大学中唯一使用 Python 和 Pandas 的经验。

Answer 1

你可以使用 df.groupby 和 agg

df.groupby(['C1','C2','C3']).agg({'C4': lambda x: ' '.join(x)})