如何使用PySpark解析深度嵌套的JSON

时间:2019-06-23 18:27:18

标签: scala apache-spark pyspark pyspark-sql

我一直在尝试解析我拥有的嵌套JSON数据并隔离数组中的对象,并将其填充为单独的列,以便我可以将转换后的文件以表格格式移动到redshift和查询。 但是,无论尝试什么,我都无法成功。我使用AWS Glue使用自定义JSON分类器($ [*])对具有JSON文件的s3进行爬网,然后创建了一个ETL作业来转换已爬网的数据并移至redshift。使用“ relationalize”将PySpark中的嵌套JSON展平,但没有成功。我在解析文件后添加了JSON模式和预期结果,如下所示。 JSON模式,

root
|-- id: long (nullable = true)
|-- eventsData: struct (nullable = true)
|    |-- events: array (nullable = true)
|    |    |-- element: struct (containsNull = true)
|    |    |    |-- count: long (nullable = true)
|    |    |    |-- eventType: string (nullable = true)

以及解析后的预期列:

id: long (nullable = true)
startEvent: string (nullable = true)
startEventCount: long (nullable = true)
processEvent: string (nullable = true)
processEventCount: long (nullable = true)
endEvent: string (nullable = true)
endEventCount: long (nullable = true)

。任何帮助都会得到真正的帮助。

0 个答案:

没有答案
相关问题