SparkSQL:直接读取JSON或对文件执行查询?

时间:2016-11-08 18:47:38

标签: json apache-spark

我有许多大型JSON文件,我想对其进行一些分析。我刚刚开始使用SparkSQL,并且我正在努力确保理解从文件中获取SparkSQL read the JSON records into an RDD/DataFrame(并推断模式)或run a SparkSQL query on the files directly之间的好处。如果您有任何使用SParkSQL的经验,我会有兴趣听听哪种方法更受欢迎以及为什么。

提前感谢您的时间和帮助!

1 个答案:

答案 0 :(得分:2)

您可以在数据集上将explain()称为操作,而不是show()count()。然后Spark会向您显示所选的物理计划。

enter image description here

您可以找到上面的图片here。据我所知,应该没有区别。但我更喜欢使用read()方法。当我使用IDE时,我可以看到所有可用的方法。当您使用SQL执行此操作时,可能会出现错误,例如slect而不是select,但在运行代码时,您将首先收到错误。