Pyspark - 阅读格式错误的CSV

时间:2017-11-20 14:12:14

标签: python csv apache-spark pyspark

我有一个CSV文件,我想读入DataFrame

以下是我的文件示例(最后一列可能包含带空格的字符串):

C1 C2 C3
  1  2 ab cd
 11 12 xx yz
5      6 mm nn pl

我尝试使用以下方式阅读此文件:

spark.read.csv("myFile",header=True, mode="DROPMALFORMED",sep=' ')

但它失败了(所有行都格格不入)

为了成功读取此文件,我需要先更新它(删除空格,添加下划线等):

C1 C2 C3
1 2 ab_cd
11 12 xx_yz
5 6 mm_nn_pl


有没有办法在不更改文件的情况下将文件读入CSV?

我还尝试使用ignoreLeadingWhiteSpace和ignoreTrailingWhiteSpace属性但没有成功。

spark.read.csv("myFile",header=True, mode="DROPMALFORMED",sep=' ', ignoreLeadingWhiteSpace=True, ignoreTrailingWhiteSpace=True)

感谢您的帮助

0 个答案:

没有答案