根据分类值对列进行编码

时间:2020-06-17 14:35:11

标签: python pandas encoding sparse-matrix

我正在从Kaggle IMDB电影数据库中“学习”。通常在“类型”列中包含多个类别值,即动作,戏剧,科幻。
流派列中的值与列名相交的地方,有一种巧妙的方法将其设置为1。,即,如果“流派”包含动作,冒险,科幻,,请设置这些列的值从NaN到1。

我还没有看到一种热类型编码,其中一个字段具有多个分类值。我从嵌套的“ For”块开始,但是我对如何根据列名有效检查分类值并设置值感到困惑。有任何想法吗? TIA

样品数据
-类型--------------------------------戏剧-冒险---科幻---动作
2动作,冒险,科幻----- NaN ------- NaN ------------ NaN ------ NaN
3戏剧----------------------------- NaN --------- NaN ---------- --NaN ------ NaN
4剧情----------------------------- NaN --------- NaN ---------- --NaN ------ NaN

我希望它看起来像这样:

-类型--------------------------------戏剧-冒险---科幻---动作
2动作,冒险,科幻----- NaN ------- 1 --------------------------- 1 < br /> 3剧情----------------------------- 1 ------------ NaN ----- ------ NaN ------ NaN
4戏剧----------------- 1 ------------ NaN ----- ------ NaN ------ NaN

0 个答案:

没有答案
相关问题