Pandas融合多指标列而无需手动指定级别(Python 3.5.1)

时间:2016-04-05 15:57:59

标签: python pandas

我有一个类似于:

的Pandas DataFrame
df = pd.DataFrame({'col1': {0: 'a', 1: 'b', 2: 'c'},
                   'col2': {0: 1, 1: 3, 2: 5},
                   'col3': {0: 2, 1: 4, 2: 6},
                   'col4': {0: 3, 1: 6, 2: 2},
                   'col5': {0: 7, 1: 2, 2: 3},
                   'col6': {0: 2, 1: 9, 2: 5},
                  })
df.columns = [list('AAAAAA'), list('BBCCDD'), list('EFGHIJ')]


    A
    B       C       D
    E   F   G   H   I   J
0   a   1   2   3   7   2
1   b   3   4   6   2   9
2   c   5   6   2   3   5

我基本上只想melt数据框,以便每个列级别成为新列。换句话说,我只需使用pd.melt()

即可实现我想要的功能
pd.melt(df, value_vars=[('A', 'B', 'E'),
                        ('A', 'B', 'F'),
                        ('A', 'C', 'G'),
                        ('A', 'C', 'H'),
                        ('A', 'D', 'I'),
                        ('A', 'D', 'J')])

然而,在我的实际用例中,有许多初始列(超过6个),如果我可以使这个泛化,那将是很好的,所以我不必在{{中精确指定元组1}}。有没有办法以一般化的方式做到这一点?我基本上正在寻找一种方法来告诉value_vars我只想将pd.melt设置为元组列表,其中每个元组中第一个元素是第一个列级别,第二个是第二个列级别level,第三个元素是第三列。

2 个答案:

答案 0 :(得分:3)

如果您未指定value_vars,则默认使用所有列(未指定为id_vars):

In [10]: pd.melt(df)
Out[10]: 
   variable_0 variable_1 variable_2 value
0           A          B          E     a
1           A          B          E     b
2           A          B          E     c
3           A          B          F     1
4           A          B          F     3
...

但是,如果由于某种原因您确实需要生成列元组列表,则可以使用df.columns.tolist()

In [57]: df.columns.tolist()
Out[57]: 
[('A', 'B', 'E'),
 ('A', 'B', 'F'),
 ('A', 'C', 'G'),
 ('A', 'C', 'H'),
 ('A', 'D', 'I'),
 ('A', 'D', 'J')]

In [56]: pd.melt(df, value_vars=df.columns.tolist())
Out[56]: 
   variable_0 variable_1 variable_2 value
0           A          B          E     a
1           A          B          E     b
2           A          B          E     c
3           A          B          F     1
4           A          B          F     3
...

答案 1 :(得分:1)

我有同样的问题,但我的基础数据集实际上只是一个包含3级多指数的系列。我从这篇博客文章https://discuss.analyticsvidhya.com/t/how-to-convert-the-multi-index-series-into-a-data-frame-in-python/5119/2

中找到了将系列“融化”为数据框的答案

基本上,你只需在系列中使用DataFrame构造函数,它就可以完全按照你想要的那样去做。

pd.DataFrame(series)