Dataframe.head()永远需要

时间:2018-12-12 09:52:43

标签: json apache-spark-sql azure-storage-blobs databricks

我从Blob存储导入了一个JSON文件,大小约为50GB。

dsm_temperature_df = spark.read.json(file_location, multiLine=True)

在导入Databricks spark数据框(大约需要40分钟)之后,我想用df.head()显示第一行。不幸的是,这需要永远。我让它运行了60分钟,但随后我停止了它。我在这里做错什么了吗?

PS:我发现对于一个较小的json文件(包含大约1GB),执行df.head()df.first()方法要花费2分钟以上的时间。对于50GB的json,这意味着要花100多分钟才能获得第一行。这不是真的吗?

1 个答案:

答案 0 :(得分:0)

问题出在之前的代码中。数据转换错误,因此数据框损坏。