Question

我一直在尝试解析我拥有的嵌套JSON数据并隔离数组中的对象，并将其填充为单独的列，以便我可以将转换后的文件以表格格式移动到redshift和查询。但是，无论尝试什么，我都无法成功。我使用AWS Glue使用自定义JSON分类器（$ [*]）对具有JSON文件的s3进行爬网，然后创建了一个ETL作业来转换已爬网的数据并移至redshift。使用“ relationalize”将PySpark中的嵌套JSON展平，但没有成功。我在解析文件后添加了JSON模式和预期结果，如下所示。 JSON模式，

root
|-- id: long (nullable = true)
|-- eventsData: struct (nullable = true)
|    |-- events: array (nullable = true)
|    |    |-- element: struct (containsNull = true)
|    |    |    |-- count: long (nullable = true)
|    |    |    |-- eventType: string (nullable = true)

以及解析后的预期列：

id: long (nullable = true)
startEvent: string (nullable = true)
startEventCount: long (nullable = true)
processEvent: string (nullable = true)
processEventCount: long (nullable = true)
endEvent: string (nullable = true)
endEventCount: long (nullable = true)

。任何帮助都会得到真正的帮助。

如何使用PySpark解析深度嵌套的JSON

0 个答案: