我正在尝试采用格式不正确的JSON并将其转换为CSV。以下是json的示例:
[
{
"fields": [
{
"label": "starttime",
"field": "starttime",
"type": "integer"
},
{
"label": "endTime",
"field": "endTime",
"type": "integer"
},
{
"label": "duration",
"field": "duration",
"type": "integer"
},
{
"label": "metrics",
"field": "metrics",
"type": "integer"
},
{
"label": "email",
"field": "email",
"type": "string"
},
]
"results": [
[
15949132375,
15949133139,
763,
7,
"newemail@gmail.com"
],
[
15949132376,
15949133140,
764,
8,
"newemail1@gmail.com"
],
[
15949132377,
15949133141,
765,
9,
"newemail2@gmail.com"
],
[
15949132378,
15949133142,
766,
10,
"newemail3@gmail.com"
],
[
15949132379,
15949133143,
767,
11,
"newemail4@gmail.com"
],
[
15949132380,
15949133144,
768,
12,
"newemail5@gmail.com"
],
[
15949132381,
15949133145,
769,
13,
"newemail6@gmail.com"
],
[
15949132382,
15949133146,
770,
14,
"newemail7@gmail.com"
],
[
15949132383,
15949133147,
771,
15,
"newemail8@gmail.com"
],
]
}
]
这是一个示例,因为结果有数千个条目。我需要尝试从上方的“字段”部分获取值作为标题,并将“结果”获取到这些标题下方的行中,因为它们是与“字段”一起使用的数据
就像我说的那样,json不能正确导出,并且不能通过键以正确的格式获取它。如何将这些数据转换成CSV?如果不是CSV,如何使用结果的每一行中的“字段”标签作为键将其格式化为正确的JSON?
我曾经尝试过通过熊猫创建df。无法正确连接每个数据集(字段,标签)和结果的列表。
请帮助?
答案 0 :(得分:0)
可以读取json文件,并可以使用“ re”模块对json文件进行评估,以分隔字段和结果。然后将结果写入输出的csv文件
建议的代码:
import re
import csv
with open("sample.json") as fptr :
fstr = fptr.read()
#jsonStr = eval(fstr)
fields = re.findall ('"fields": (\[.*?\])', fstr, re.M+re.S+re.I)
fields = eval(fields[0])
headers = [ f['label'] for f in fields]
results = re.findall ('"results": (\[.*\]).*}', fstr, re.M+re.S+re.I)
results = eval(results[0])
# print (fields, results, headers)
with open ("output.csv", "w", newline="") as fptr :
recordWrite = csv.writer(fptr, dialect='excel')
recordWrite.writerow(headers)
recordWrite.writerows(results)
注意:查看上面的json,可以使用“ eval”而不是“ re”评估整个文件内容。唯一需要做的更改是在列表结束且“字段”开始后添加一个逗号。