Spark - 读取CSV文件时出现奇怪的字符

时间:2017-04-09 19:48:45

标签: csv apache-spark

我希望有人可以帮助我。我的问题如下:

要在Spark中读取CSV文件我正在使用代码

QString folder = QFileDialog::getExistingDirectory(this, "test", "", QFileDialog::ReadOnly);

假设我的文件名为val df=spark.read.option("header","true").option("inferSchema","true").csv("/home/user/Documents/filename.csv") ,路径为filename.csv

要显示我使用的前10个结果

/home/user/Documents/

但我获得了以下结果,其中包含字符 并且没有显示所需的10个结果

df.show(10)

CSV文件看起来像这样

scala> df.show(10)
+--------+---------+---------+-----------------+                                
|     c1|      c2|      c3|              c4|
+--------+---------+---------+-----------------+
|��1.0|5450|3007|20160101|
+--------+---------+---------+-----------------+

我正在尝试阅读的文件很大。当我尝试较小的文件时,我没有得到奇怪的字符,我可以毫无问题地看到前10个结果。

感谢任何帮助。

1 个答案:

答案 0 :(得分:0)

有时这不是由Spark设置引起的问题。尝试将CS​​V文件重新保存为“ CSV UTF-8(逗号分隔)”,然后重新运行代码,奇怪的字符将消失。读取一些包含德语单词的CSV文件时,我遇到了类似的问题,然后我在上面做了,一切都很好。