从嵌套字典创建熊猫数据框

时间:2020-06-19 16:37:53

标签: python pandas dataframe

我有一个具有以下结构的嵌套字典: course_id,嵌套字典,包含:2个推荐课程和每门课程的购买数量。 例如,此字典的条目看起来像这样:

 {490: {566: 253, 551: 247},
 357: {571: 112, 356: 100},
 507: {570: 172, 752: 150}}

我尝试使用以下代码从此字典中创建数据框:

result=pd.DataFrame.from_dict(dicts, orient='index').stack().reset_index()
result.columns=['Course ID','Recommended course','Number of purchases']

Pls. see the output

这对我来说不是很有效,因为我想要一个输出,其中将有5列。 课程ID,推荐课程1,购买1,推荐课程2,购买2。 有什么解决办法吗? 预先感谢。

3 个答案:

答案 0 :(得分:1)

我建议您只是调整字典的形状,然后重新创建数据框,但是从当前数据框获取目标输出也不远。

我们可以groupby并使用cumcount创建我们的唯一列,然后unstack并从创建的多索引标头中分配我们的列。

s1 = result.groupby(['Course ID',
             result.groupby(['Course ID']).cumcount() + 1]).first().unstack()

s1.columns = [f"{x}_{y}" for x,y in s1.columns]


              Recommended course_1  Recommended course_2  Number of purchases_1  \
Course ID                                                                      
357                         571                   356                  112.0   
490                         566                   551                  253.0   
507                         570                   752                  172.0   

           Number of purchases_2  
Course ID                         
357                        100.0  
490                        247.0  
507                        150.0

答案 1 :(得分:0)

效率不高,但应该适合您的情况:-

df = pd.DataFrame([(k,list(v.keys())[0],list(v.values())[0],list(v.keys())[1],list(v.values())[1]) for k,v in a.items()], columns = ['Course ID','Recommended course 1','purchases 1', 'Recommended Course 2', 'purchases 2'])
print(df)

输出:-

   Course ID  Recommended course 1  purchases 1  Recommended Course 2  \
0        490                   566          253                   551
1        357                   571          112                   356
2        507                   570          172                   752

   purchases 2
0          247
1          100
2          150

答案 2 :(得分:0)

您可以使用itertools链将嵌套的dict转换为键,值对的平面列表,并使用字典理解(其中键是课程ID)将其存储到字典d2中,然后继续形成使用熊猫的数据框。

import pandas as pd
from itertools import chain

d = {
    490: {566: 253, 551: 247},
    357: {571: 112, 356: 100},
    507: {570: 172, 752: 150}
}

d2 = {k: list(chain.from_iterable(v.items())) for k, v in d.items()}
df = pd.DataFrame.from_dict(d2, orient='index').reset_index()
df.columns = ['id','rec_course1', 'n_purch_1', 'rec_course2', 'n_purch_2']

df

    id   rec_course1  n_purch_1  rec_course2  n_purch_2
0  490           566        253          551        247
1  357           571        112          356        100
2  507           570        172          752        150