随机森林的分层抽样-Python

时间:2016-03-29 03:43:18

标签: python scikit-learn classification random-forest

我正在建立一个随机森林分类模型,响应变量分割为98%(假)-2%(真)。我正在使用Scikit Learn的RandomForest分类器。

处理这种不平衡数据并避免过采样的最佳方法是什么?

2 个答案:

答案 0 :(得分:0)

您可以使用参数class_weight

{class_label: weight}

形式的类相关联的权重

您可以为小班授予更多权重,并使用交叉验证找到最佳体重。

例如class_weight={1: 10, 0:1}。给标有1的班级增加了更多的重量。

答案 1 :(得分:0)

在较新版本的sklearn的随机森林分类器中,您只需设置class_weight =“ balanced”。