Question

我正在尝试采用格式不正确的JSON并将其转换为CSV。以下是json的示例：

[
  {
    "fields": [
      {
        "label": "starttime",
        "field": "starttime",
        "type": "integer"
      },
      {
        "label": "endTime",
        "field": "endTime",
        "type": "integer"
      },
      {
        "label": "duration",
        "field": "duration",
        "type": "integer"
      },
      {
        "label": "metrics",
        "field": "metrics",
        "type": "integer"
      },
      {
        "label": "email",
        "field": "email",
        "type": "string"
      },
     ]
    "results": [
      [
        15949132375,
        15949133139,
        763,
        7,
        "newemail@gmail.com"
      ],
      [
        15949132376,
        15949133140,
        764,
        8,
        "newemail1@gmail.com"
      ],
      [
        15949132377,
        15949133141,
        765,
        9,
        "newemail2@gmail.com"
      ],
      [
        15949132378,
        15949133142,
        766,
        10,
        "newemail3@gmail.com"
      ],
      [
        15949132379,
        15949133143,
        767,
        11,
        "newemail4@gmail.com"
      ],
      [
        15949132380,
        15949133144,
        768,
        12,
        "newemail5@gmail.com"
      ],
      [
        15949132381,
        15949133145,
        769,
        13,
        "newemail6@gmail.com"
      ],
      [
        15949132382,
        15949133146,
        770,
        14,
        "newemail7@gmail.com"
      ],
      [
        15949132383,
        15949133147,
        771,
        15,
        "newemail8@gmail.com"
      ],
    ]
  }
]

这是一个示例，因为结果有数千个条目。我需要尝试从上方的“字段”部分获取值作为标题，并将“结果”获取到这些标题下方的行中，因为它们是与“字段”一起使用的数据

就像我说的那样，json不能正确导出，并且不能通过键以正确的格式获取它。如何将这些数据转换成CSV？如果不是CSV，如何使用结果的每一行中的“字段”标签作为键将其格式化为正确的JSON？

我曾经尝试过通过熊猫创建df。无法正确连接每个数据集（字段，标签）和结果的列表。

请帮助？

Answer 1

可以读取json文件，并可以使用“ re”模块对json文件进行评估，以分隔字段和结果。然后将结果写入输出的csv文件

建议的代码：

import re
import csv
with open("sample.json") as fptr :
    fstr = fptr.read()
    #jsonStr = eval(fstr)
    fields = re.findall ('"fields": (\[.*?\])', fstr, re.M+re.S+re.I)
    fields = eval(fields[0])
    headers = [ f['label'] for f in fields]
    results = re.findall ('"results": (\[.*\]).*}', fstr, re.M+re.S+re.I)
    results = eval(results[0])
    # print (fields, results, headers)

with open ("output.csv", "w", newline="") as fptr :
    recordWrite = csv.writer(fptr, dialect='excel')
    recordWrite.writerow(headers)
    recordWrite.writerows(results)

注意：查看上面的json，可以使用“ eval”而不是“ re”评估整个文件内容。唯一需要做的更改是在列表结束且“字段”开始后添加一个逗号。

将损坏的JSON转换为CSV python

1 个答案: