选择重要功能然后插入或首先输入然后选择重要功能?

时间:2016-06-01 18:59:21

标签: pandas machine-learning feature-selection imputation

我有一个包含许多功能的数据集(主要是分类功能是/否))和许多缺失值。

降维的技术之一是针对目标属性生成一组大而精心构建的树,然后使用每个属性的使用统计信息来查找功能最丰富的子集。这是基本上我们可以生成一大堆非常浅的树,每棵树都在属性总数的一小部分上进行训练。如果通常选择属性作为最佳分割,则很可能是保留信息的功能。

我也使用了一个imputer来填补缺失的值。

我怀疑上述两个应该是什么命令。上面两个中的哪一个(维数减少和估算)首先要做,为什么?

1 个答案:

答案 0 :(得分:-1)

从数学角度来看,你应该始终避免数据插补(从某种意义上说 - 只有在必要时才使用它)。换句话说 - 如果你有一个可以使用缺失值的方法 - 使用它(如果你没有 - 你留下了数据插补)。

数据插补几乎总是有很大的偏见,它已被证明了很多次,我相信我甚至读过有关它的论文,这篇论文已经有20年了。一般而言 - 为了进行统计上合理的数据估算,您需要拟合一个非常好的生成模型。只是输入"最常见的",平均值等对Naive Bayes的类似强度的数据进行假设。