我的随机森林训练和测试集具有不同的功能

时间:2018-10-04 02:02:20

标签: machine-learning random-forest data-science

我应该只从训练集中选择重要特征并将其用于预测还是为不包括的那些特征创建具有0值的列?

培训集6160功能 测试装置4000个功能

1 个答案:

答案 0 :(得分:0)

只使用对预测有实际影响的相关功能。 使用不必要的功能列无济于事,反而会增加您的培训时间和复杂性。

功能不一致,训练和测试集不起作用。 因此,要么从数据集中删除与测试集和培训集都不对应的列,要么尝试获取其他数据。

请勿添加具有0个值的要素列,因为这本身就是要素值,会被视为错误数据,从而导致模型不准确。