Pyspark:选择除特定列之外的所有列

时间:2018-06-13 13:13:10

标签: python sql dataframe pyspark

我在PySpark数据框中有大量列,比如说200.我想选择除列3-4之外的所有列。如何选择此列而不必手动键入要选择的所有列的名称?

2 个答案:

答案 0 :(得分:2)

最后,我决定满足以下条件:

  • Drop

    df.drop('column_1', 'column_2', 'column_3')

  • Select

    df.select([c for c in df.columns if c not in {'column_1', 'column_2', 'column_3'}])

答案 1 :(得分:0)

第二步有一个更简单的方法,它允许选择所有列:

df.select(df['*'])

或者,select 也可以通过应用 alias 来使用:

df.alias("a").select("a.*")