Question

摘要：我正在尝试使用sklearn的RandomForestClassifier在大约1000行x 20列的数据集上预测法院案件的类别方面（例如结果）。我知道原告律师是这方面的重要因素，在这种情况下，同一案子的律师事务所通常有2或3个原告律师，而另一律师事务所则有2或3个原告律师。

我在DataFrame中有一栏，其中列出了案件的律师名单。有〜1000行和〜200个唯一的律师姓名。解决此问题的一种方法是使用pd.get_dummies()对律师姓名进行热编码，这会导致模型过度拟合或质量很差（R ^ 2：0.2）

鉴于我的数据集相对较小，对更好的解决方案有何想法？如果它们在数据集中出现n次以上，也许只使用get_dummies？除了一种热编码之外，还有其他使用我的列表的方法吗？

例如：

index   attorney_name
0       [A1,A2,A3]
1       [A2]
2       [A6]
3       [A2,A19]
…       …
1004    [A200,A201]
1005    [A202]