数据块-CSV无法正确加载

时间:2019-01-15 01:54:13

标签: databricks azure-databricks

我有一个简单的csv文件,该文件通过管道定界,可以将其加载到Databricks中,然后分解df并显示效果很好。然后,我尝试格式化相同的主数据集并从SQL Server导出数据。加载后,输出表明它已加载(列出字段名称和推断出的数据类型-所有字符串,但这不是一个好兆头)

df = spark.read.format("csv").options(header='true', quote='"', delimiter="|",ignoreLeadingWhiteSpace='true',inferSchema='true').load("/mnt/gl/mainfile.csv")

然后我显示(df),但看不到很好的显示。而是显示以下内容:

Job 34 View

(Stages: 1/1)

Job 35 View

(Stages: 1/1)

Job 36 View

(Stages: 1/1)

很明显,这里的csv有问题,但是我不知道如何解决这个问题-我已经很小心如何从SQL Server导出它,所以不确定在那做些什么。

1 个答案:

答案 0 :(得分:1)

好,我解决了。如果您遇到类似的问题,则可能意味着您的csv格式不正确。使用Ron编辑器之类的文本编辑器打开简历,然后目视检查数据。由于某种原因,在我的数据集上,最终金额为$的字段在其前面有一个“,但没有在其末尾。”

例如“ 12344.67

不知道为什么SQL Server会这样做(我正在使用导入/导出向导),但是我摆脱了导出的csv中的“分隔符,现在可以正常使用了