Spark:使用别名重命名多个列

时间:2016-09-15 14:44:53

标签: scala apache-spark apache-spark-sql

假设我有以下架构的数据框:

| -- comment: struct
|   |-- _1: string
|   |-- _2: string
|   |-- _3: string

当我使用df.select("comment.*")时,我正在获取包含_1,_2,_3列的数据框。是否有可能使用alias方法更改别名?理想情况下,它看起来像df.select($"comment.*".alias("a", "b", "c"))

df.select($"comment".alias("a"))会产生错误:

org.apache.spark.sql.AnalysisException: Invalid usage of '*' in expression 'alias';

1 个答案:

答案 0 :(得分:3)

您始终可以为select生成一系列列:

val from = (1 to 3).map(i => col(s"comment._$i"))
val to = Seq("a", "b", "c")

df.select(from.zip(to).map { case (x, y) => x.alias(y) }: _*)
相关问题