如何在一列pyspark中解析具有多种类型的json文件

时间:2018-11-13 16:43:23

标签: python pyspark

我有一个json文件,有时在一个结构中可以同时包含数组和字符串。在我将json文件展平并将其转换为数据帧之后,当我查看模式时,总会以某种方式将结构化元素显示为字符串类型。由于它以字符串形式出现,因此我无法读取字符串或数组元素。

我如何正确地展平这种类型的数据结构并隐瞒数据框?

我该如何处理我的代码中的这种情况,因为这种情况只会偶尔发生。

ID 1234 具有多种电话号码类型-家庭和公司;返回电话对象数组。 id 67890只有一种电话号码类型,可返回电话对象的字符串类型。

"Phone_detail": [
                {
                    "id": "1234",
                    "Name": "test",
                    "phone": [
                        {
                            "type": "home",
                            "number": "908765"
                        }, {
                            "type": "work",
                            "number": "123456"
                        }
                    ]
                }, {
                    "id": "67890",
                    "Name": "test11",
                    "phone": {
                        "type": "home",
                        "number": "6534950"
                    }
                }
            ]

0 个答案:

没有答案
相关问题