将数据集[Array [String]]转换为Dataset [MyCaseClass]

时间:2017-04-02 21:52:26

标签: scala csv apache-spark spark-dataframe apache-spark-dataset

我正在使用下面的csv文件

"age;""job"";""marital"""
"58;""management"";""married"""
"44;""technician"";""single"""

由于额外的引号,spark.read.csv不会提供干净的列。 所以我想到使用spark.read.textFile,它给出了Dataset [String]。我使用下面的代码删除引号并拆分它们。

case class MyCaseClass(age: String, job: String, marital: String)
val inputDS = spark.read.textFile(inpPath)
val cleanDS = inputDS.map(_.replaceAll(""""""", "").split(";"))
val seperatedDS = cleanDS.as[MyCaseClass] //fails

有没有办法实现这种数据集转换或分割成多列的更好方法? 目前我正在使用RDD完成工作,但想知道数据集/数据帧的方式。

1 个答案:

答案 0 :(得分:1)

您可以从每个分割线构建MyCaseClass的记录,以便拥有RDD[MyCaseClass],然后您可以直接将其转换为数据框:

val cleanDS = inputDS.map(line => {
  val fields = line.replaceAll("\"", "").split(";")
  MyCaseClass(fields(0), fields(1), fields(2))
})

cleanDS
// res37: org.apache.spark.sql.Dataset[MyCaseClass] = [age: string, job: string ... 1 more field]

cleanDS.toDF.show
+---+----------+-------+
|age|       job|marital|

+---+----------+-------+
|age|       job|marital|
| 58|management|married|
| 44|technician| single|
+---+----------+-------+