SKLearn / Tabluar数据:如何处理包含非热编码列表的DataFrame元素?

时间:2019-02-25 19:20:22

标签: python pandas scikit-learn data-science tabular

摘要:我正在尝试使用sklearn的RandomForestClassifier在大约1000行x 20列的数据集上预测法院案件的类别方面(例如结果)。我知道原告律师是这方面的重要因素,在这种情况下,同一案子的律师事务所通常有2或3个原告律师,而另一律师事务所则有2或3个原告律师。

我在DataFrame中有一栏,其中列出了案件的律师名单。有〜1000行和〜200个唯一的律师姓名。解决此问题的一种方法是使用pd.get_dummies()对律师姓名进行热编码,这会导致模型过度拟合或质量很差(R ^ 2:0.2)

鉴于我的数据集相对较小,对更好的解决方案有何想法?如果它们在数据集中出现n次以上,也许只使用get_dummies?除了一种热编码之外,还有其他使用我的列表的方法吗?

例如:

index   attorney_name
0       [A1,A2,A3]
1       [A2]
2       [A6]
3       [A2,A19]
…       …
1004    [A200,A201]
1005    [A202]

0 个答案:

没有答案
相关问题