如何在Apache Spark SCALA中加载CSV文件

时间:2019-02-20 13:52:51

标签: scala apache-spark

如何加载CSV文件 我有两个CSV文件用户和推文 我在推文表中的哪儿用“,”分隔记录 但是在两个引号之间的tweet字段中有很多逗号,所以我没有得到正确的输出或入门数据

那么Scala中正确的代码是什么?

2 个答案:

答案 0 :(得分:0)

我只是使用textfile加载文件,然后使用regex函数 val字段= line.split(“,(?=(?:[^ \”] \“ [^ \”] \“) [^ \”] $ )“) 而且有效。 谢谢!!

答案 1 :(得分:-1)

您可以在一个字段的,中包含多个""来读取Tweet文件。

val data = spark.read.option("header", true).option("delimiter", ",") .option("inferSchema", true).csv("Tweet.csv")