Question

我的数据框看起来像这样，只有更大。

d = {'Col_1' : pd.Series(['A', 'B']),
 'Col_2' : pd.Series(['B', 'A', 'C']),
 'Col_3' : pd.Series(['B', 'A']),
 'Col_4' : pd.Series(['C', 'A', 'B', 'D']),
 'Col_5' : pd.Series(['A', 'C']),}
df = pd.DataFrame(d)

Col_1  Col_2  Col_3  Col_4  Col_5
  A      B      B      C      A
  B      A      A      A      C
  NaN    C      NaN    B      NaN
  NaN    NaN    NaN    D      NaN

首先，我正在尝试单独对每列进行排序。我尝试过像df.sort([lambda x: x in df.columns], axis=1, ascending=True, inplace=True)之类的东西，但是最终却出错了。如何对每个列进行单独排序，最终得到如下内容：

Col_1  Col_2  Col_3  Col_4  Col_5
  A      A      A      A      A
  B      B      B      B      C
  NaN    C      NaN    C      NaN
  NaN    NaN    NaN    D      NaN

其次，我希望连接列

中的行

 df = pd.concat([df,pd.DataFrame(df.sum(axis=0),columns=['Concatenation']).T])

在用''替换np.nan后，我可以将所有内容与上面的行组合在一起，但结果会被粉碎（'AB'）并且需要额外的步骤来清理（变成'A：B'之类的东西）

Answer 1

这是一种方式：

>>> pandas.concat([df[col].order().reset_index(drop=True) for col in df], axis=1, ignore_index=True)
11:      0    1    2  3    4
0    A    A    A  A    A
1    B    B    B  B    C
2  NaN    C  NaN  C  NaN
3  NaN  NaN  NaN  D  NaN

[4 rows x 5 columns]

但是，你所做的有点奇怪。 DataFrames不仅仅是不相关列的集合。在DataFrame中，每个行表示一条记录，因此一列中的值在语义上与同一行中其他列中的值相关联。通过独立地对列进行排序，您将丢弃此信息，因此行现在毫无意义。这就是我的例子中需要reset_index的原因。另外，由于这个原因，你无法在原地做到这一点，你的例子就是你想要的。

Answer 2

pandas.Series.order is deprecated since pandas=0.17.而是使用sort_values，如下所示：

for col in df:
    df[col] = df[col].sort_values(ignore_index=True)

Answer 3

我不知道这是否更好，但还有其他几种方法可以做到。

 pd.DataFrame({key: sorted(value.values(), reverse=True) \
    for key, value in df.to_dict().iteritems()})

 pd.DataFrame({key: sorted(values, reverse=True) \
    for key, values in df.transpose().iterrows()})

pandas：单独对每列进行排序

3 个答案: