Question

我有一个具有某些信息的excel数据集列表，如下所示：

Category    Subcategory    Name
Main Dish   Noodle         Tomato Noodle
Main Dish   Stir Fry       Chicken Rice
Main Dish   Soup           Beef Goulash
Drink       Wine           Bordeaux
Drink       Softdrink      Cola

假设上面的数据集只是其中一个数据集，我希望使用嵌套dict和list的数据结构是：

data = {0:{'data':0, 'Category':[
                                 {'name':'Main Dish', 'Subcategory':[
                                                       {'name':'Noodle', 'key':0, 'data':['key':1, 'title':'Tomato Noodle']},
                                                       {'name':'Stir Fry', 'key':1, 'data':['key':2, 'title':'Chicken Rice']},
                                                       {'name':'Soup', 'key':2, 'data':['key':3, 'title':'Beef Goulash']}]},
                                  {'name':'Drink', 'Subcategory':[
                                                       {'name':'Wine', 'key':0, 'data':['key':1, 'title':'Bordeaux']},
                                                       {'name':'Softdrink', 'key':1, 'data':['key':2, 'title':'cola'}]}]},
        1:{'data':1, 'Category':.........#Same structure as dataset 0}}

因此，基本上，整个类别是一个defaultdict（list），每个不同类别在整个类别列表中形成一个dict。不同的子类别也是如此，但是子类别遵循类别。

我尝试使用defaultdict来执行此操作，这是我的代码：

from collections import defaultdict
data = defaultdict(dict)
cateList = ["Main Dish", "Drink"]
n = 3 # n means the number of datasets
for i in range(n):
    data[i]['data'] = i
    data[i]['category'] = defaultdict(list) 
    for j in range(len(cateList)):
        data[i]['category'][j]['name'] = cateList[j]
        data[i]['category'][j]['subcategory'] = defaultdict(list)
data

但是我收到以下错误：

TypeError                                 Traceback (most recent call last)
<ipython-input-81-298f7ff30c6a> in <module>()
      5     data[i]['category'] = defaultdict(list)
      6     for j in range(len(cateList)):
----> 7         c
      8         data[i]['category'][j]['subcategory'] = defaultdict(list)
      9 data

TypeError: list indices must be integers or slices, not str

这是在Jupyter Notebook中执行的，似乎不允许我以这种方式指示嵌套的defaultdict：data [i] ['category'] [j] ['name'] = cateList [j ]。所以我不太确定如何构造上述数据结构...是否有更好的方法？

非常感谢您的帮助。

Answer 1

您的规格说明您希望'Category'引用列表：

data = {0:{'data':0, 'Category':[
#                               ^ a list opening bracket

但是，您的代码将其设置为字典：

data[i]['category'] = defaultdict(list)

，但是代码的其余部分然后尝试通过使用'category'作为索引，将j对象再次视为列表。因为它是字典，所以表达式data[i]['category'][j]会产生一个列表，而data[i]['category'][j]['name']或data[i]['category'][j]['subcategory']会尝试使用字符串为该列表建立索引。

构建此结构实际上不需要defaultdict；您已经知道要构建数据，并且正在使用循环在此处构建嵌套结构。您可以只使用常规词典和列表：

cateList = ["Main Dish", "Drink"]
n = 3 # n means the number of datasets

data = {}
for i in range(n):
    data[i] = {
        'data': i,
        'category': []
    }
    category = data[i]['category']
    for name in cateList:
        category.append({
            'name': name,
            'subcategory': []
        })

我不太确定为什么要使用从0开始的整数键来构建外部字典。您也可以列出该列表。

Python defaultdict深层嵌套数据结构

1 个答案: