熊猫长到宽的形式

时间:2019-02-04 18:48:58

标签: python python-3.x pandas dataframe

我有一个长数据帧,其索引是这样的时间序列:

detector.php

我想通过将每n行的列拆分为一个“新”表中的一行来对它进行变换/重塑。

例如,创建一个n = 3:

datetime             number
2015-07-06 00:00:00  12
2015-07-06 00:10:00  55
2015-07-06 00:20:00  129
2015-07-06 00:30:00  5
2015-07-06 00:40:00  3017
2015-07-06 00:50:00  150
2015-07-06 01:00:00  347
2015-07-06 01:10:00  8
2015-07-06 01:20:00  19
...                  ...

我可以考虑使用For-Loop来做到这一点,但我想知道熊猫是否有一种更有效的本地方式。

2 个答案:

答案 0 :(得分:3)

您可以将groupbyapply / agglist一起使用:

u = df.groupby(pd.Grouper(key='datetime', freq='30min'))['number'].agg(list)
pd.DataFrame(u.tolist(), index=u.index)

                       0     1    2
datetime                           
2015-07-06 00:00:00   12    55  129
2015-07-06 00:30:00    5  3017  150
2015-07-06 01:00:00  347     8   19

答案 1 :(得分:1)

这是一种解决方法

n = 3
new_df = df.groupby(df.index//n).agg({'datetime': 'first', 'number': lambda x: x.tolist()})
new_df.assign(**(new_df.number.apply(pd.Series).add_prefix('#')))


    datetime            number          #0  #1      #2
0   2015-07-06 00:00:00 [12, 55, 129]   12  55      129
1   2015-07-06 00:30:00 [5, 3017, 150]  5   3017    150
2   2015-07-06 01:00:00 [347, 8, 19]    347 8        19

您可以删除数字列

编辑:按照@coldspeed的建议,您可以结合最后两个步骤。

new_df = df.groupby(df.index//n).agg({'datetime': 'first', 'number': lambda x: x.tolist()})
new_df.assign(**(new_df.pop('number').apply(pd.Series).add_prefix('#')))

    datetime            #0  #1      #2
0   2015-07-06 00:00:00 12  55      129
1   2015-07-06 00:30:00 5   3017    150
2   2015-07-06 01:00:00 347 8       19