Question

我从Blob存储导入了一个JSON文件，大小约为50GB。

dsm_temperature_df = spark.read.json(file_location, multiLine=True)

在导入Databricks spark数据框（大约需要40分钟）之后，我想用df.head()显示第一行。不幸的是，这需要永远。我让它运行了60分钟，但随后我停止了它。我在这里做错什么了吗？

PS：我发现对于一个较小的json文件（包含大约1GB），执行df.head()或df.first()方法要花费2分钟以上的时间。对于50GB的json，这意味着要花100多分钟才能获得第一行。这不是真的吗？

Answer 1

问题出在之前的代码中。数据转换错误，因此数据框损坏。