处理spark的csv文件中的新行

时间:2017-11-10 10:50:25

标签: scala csv spark-dataframe

我的一个输入文件是csv(用逗号分隔)。其中一个字段是地址,其中包含新行字符。因此,当我使用spark读取它时,这会给我带来相当大的麻烦,其中一个输入记录被分成多个记录。

是否有人能够找到解决方案来解决这个问题。目前的解决方法是在读入spark之前删除源端数据中的新行字符。

我想在spark中为此创建一个通用的解决方案。我使用scala dataframe api' s。

1 个答案:

答案 0 :(得分:0)

您可以尝试使用csv阅读器的multiLine选项。

spark.read.csv(file, multiLine=True)