pandas - 选择重要功能然后插入或首先输入然后选择重要功能？

时间：2016-06-01 18:59:21

标签： pandas machine-learning feature-selection imputation

我有一个包含许多功能的数据集（主要是分类功能（是/否））和许多缺失值。

降维的技术之一是针对目标属性生成一组大而精心构建的树，然后使用每个属性的使用统计信息来查找功能最丰富的子集。这是基本上我们可以生成一大堆非常浅的树，每棵树都在属性总数的一小部分上进行训练。如果通常选择属性作为最佳分割，则很可能是保留信息的功能。

我也使用了一个imputer来填补缺失的值。

我怀疑上述两个应该是什么命令。上面两个中的哪一个（维数减少和估算）首先要做，为什么？

答案 0 :(得分：-1)

从数学角度来看，你应该始终避免数据插补（从某种意义上说 - 只有在必要时才使用它）。换句话说 - 如果你有一个可以使用缺失值的方法 - 使用它（如果你没有 - 你留下了数据插补）。

数据插补几乎总是有很大的偏见，它已被证明了很多次，我相信我甚至读过有关它的论文，这篇论文已经有20年了。一般而言 - 为了进行统计上合理的数据估算，您需要拟合一个非常好的生成模型。只是输入＆＃34;最常见的＆＃34;，平均值等对Naive Bayes的类似强度的数据进行假设。