使用随机森林时,是否应包括具有高度预测性但很少发生的特征?

时间:2018-12-27 17:28:14

标签: random-forest

我正在尝试对具有约25,000个观测值的数据集运行二进制分类随机森林,并且我拥有约300个特征。所有这些功能至少都会显示一次,但是相当多的功能总共发生的次数少于50次,有的少于10次。

我怀疑其中一些可能是一种完美的预测器,但如果它们如此罕见,它们有什么用呢?如果我可以在运行任何命令之前将其删除,则可以大大减少模型的训练时间。还是应该只对所有内容运行模型并删除最不重要的功能?

1 个答案:

答案 0 :(得分:0)

运行一个包含所有内容的模型,另一个运行不具有这些功能的模型。

比较两个模型的误差度量,还检查功能重要性值以查看这些功能是否有用。

您还可以使用SelectKBest中的sklearn等功能选择技术

https://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_selection