scikit-learn - 为什么随机森林中的更多功能会大大降低准确性？

时间：2019-01-03 05:22:47

标签： scikit-learn random-forest

我正在使用sklearn的随机森林模块来预测基于50个不同维度的值。当我将尺寸数增加到150时，模型的精度会急剧下降。我希望有更多的数据只会使模型更准确，但是更多的功能会使模型的准确性降低。

我怀疑拆分只能在一个维度上完成，这意味着实际上更重要的特征在构建树时会受到较少的关注。这可能是原因吗？

答案 0 :(得分：0)

是的，您添加的其他功能可能没有良好的预测能力，并且由于随机森林采用随机的特征子集来构建单个树，因此可能错过了最初的50个特征。为了检验这个假设，您可以使用sklearn绘制变量重要性。

答案 1 :(得分：0)

您的模型是过度拟合数据。

来自维基百科：

过度拟合模型是一种统计模型，其中包含的参数超出了数据可以证明的范围。

有很多关于过度拟合的说明，但是例如，此2d图表示针对二进制分类任务将学习的不同功能。由于右侧的函数有太多参数，因此它会学习错误的数据模式，这些数据不能正确地概括。