具有相关特征的随机森林

时间:2018-06-21 19:01:52

标签: correlation random-forest feature-selection

在我的数据集中,我有2个不仅相互关联的特征,而且仅在彼此存在时才有意义。例如,一个是尝试执行任务的次数,另一个是成功的次数。

如前所述,似乎是我自己单独采取了2种方法之一并没有提供任何信息。我应该制定一种方案,如果我在RF的树中选择其中一个,则自动包括另一个?

如果是这样,是否可以使用scikit-learn的RF类来做到这一点?

谢谢!

1 个答案:

答案 0 :(得分:1)

为成功率引入新功能successes / attempts。现在,这个可能重要的概念对于分类器/回归器而言更加可用。 随机森林算法对冗余特征具有鲁棒性,因此您应尝试保留原始特征,这可能会添加预测信息。查看经过训练的森林的特征重要性得分,以了解选择了哪些特征。