Question

我正在使用带有Scala的Apache Spark。

我有一个csv文件，第一行没有列名。它是这样的：

28,Martok,49,476
29,Nog,48,364
30,Keiko,50,175
31,Miles,39,161

列代表ID，名称，年龄，numOfFriends。

在我的Scala对象中，我使用csv文件中的SparkSession创建数据集，如下所示：

val spark = SparkSession.builder.master("local[*]").getOrCreate()
val df = spark.read.option("inferSchema","true").csv("../myfile.csv")
df.printSchema()

当我运行程序时，结果是：

|-- _c0: integer (nullable = true)
|-- _c1: string (nullable = true)
|-- _c2: integer (nullable = true)
|-- _c3: integer (nullable = true)

如何为数据集中的列添加名称？

Answer 1

您可以在阅读CSV文件时使用toDF指定列名称：

val df = spark.read.option("inferSchema","true").csv("../myfile.csv").toDF(
  "ID", "name", "age", "numOfFriends"
)

或者，如果您已经创建了DataFrame，则可以按如下方式重命名其列：

val newColNames = Seq("ID", "name", "age", "numOfFriends")
val df2 = df.toDF(newColNames: _*)

Answer 2

toDf

可以使用method，可以在spark java中传入列名。

示例：

Dataset<Row> rowsWithTitle = sparkSession.read().option("header", "true").option("delimiter", "\t").csv("file").toDF("h1", "h2");

将列名添加到从没有列名的csv文件中读取的数据

2 个答案: