random-forest - 使用随机森林时，是否应包括具有高度预测性但很少发生的特征？

时间：2018-12-27 17:28:14

标签： random-forest

我正在尝试对具有约25,000个观测值的数据集运行二进制分类随机森林，并且我拥有约300个特征。所有这些功能至少都会显示一次，但是相当多的功能总共发生的次数少于50次，有的少于10次。

我怀疑其中一些可能是一种完美的预测器，但如果它们如此罕见，它们有什么用呢？如果我可以在运行任何命令之前将其删除，则可以大大减少模型的训练时间。还是应该只对所有内容运行模型并删除最不重要的功能？

答案 0 :(得分：0)

运行一个包含所有内容的模型，另一个运行不具有这些功能的模型。

比较两个模型的误差度量，还检查功能重要性值以查看这些功能是否有用。

您还可以使用SelectKBest中的sklearn等功能选择技术