我有一个数据框/excel 文件,其中每个唯一对象有两行,其中一个对象的所有列都具有相同的值,只有一列的值不同。我想删除重复的行但保留所有数据。
所以它看起来像:
C1, C2, C3, C4;
ID1, Value1, A1, one;
ID1, Value1, A1, two;
ID2, Value2, B2, three;
ID2, Value2, B2, four;
我想将每个唯一的 C1 的重复行合并为一行,但将所有值合并到 C4 的一个字段中。
所以最终结果是:
C1, C2, C3, C4;
ID1, Value1, A1, onetwo;
ID2, Value2, B2, threefour;
有什么指点吗?我需要为我使用不同编程语言的项目修复数据处理工作的脚本,我在几年前的大学中唯一使用 Python 和 Pandas 的经验。
答案 0 :(得分:0)
你可以使用 df.groupby 和 agg
df.groupby(['C1','C2','C3']).agg({'C4': lambda x: ' '.join(x)})