随机森林中置换重要性

时间:2018-07-29 22:10:29

标签: random-forest h2o

随机森林的CRAN实现提供了两种可变的重要性度量:基尼重要性以及定义为

的广泛使用的置换重要性
  

对于分类,是指案例出现的次数增加的百分比   OOB,并且在排列变量时分类错误。为了回归   它是当变量变大时OOB残差平方的平均增加   排列

默认情况下, h2o.varimp()仅计算前者。在h2o中,真的没有任何选择可以从随机森林模型中获得替代措施吗?

谢谢! ML

1 个答案:

答案 0 :(得分:1)

H2O无法计算置换的重要性。有关如何计算变量重要性的说明,请参见documentation

为方便起见,我还将其粘贴在下面:

如何为DRF计算变量重要性?

变量的重要性是通过计算每个变量的相对影响来确定的:在树的构建过程中,是否在拆分过程中选择了该变量,结果平方误差(所有树)得到了改善。

先前已针对此问题提出过功能请求,您可以按照here进行操作(尽管请注意,该请求当前处于打开状态)。