“解决丢失的数据”如何帮助KNN更好地发挥作用?

时间:2018-07-31 04:53:53

标签: knn

来源:-https://machinelearningmastery.com/k-nearest-neighbors-for-machine-learning/

此页面的一节引用了以下段落:-

  

KNN的最佳准备数据

     

重新缩放数据:如果所有数据的比例都相同,则KNN的效果会更好。将数据标准化为[0,1]范围是一个好主意。如果数据具有高斯性,也可能是一个好主意   分布。

     

地址丢失数据:数据丢失意味着无法计算样本之间的距离。可以排除这些样本,也可以估算缺失值。

     

较低维度:KNN适用于较低维度的数据。您可以在高维数据(数百或数千个输入变量)上尝试使用它,但要注意,它的性能可能不如其他技术好。 KNN可以从特征选择中受益,该选择可以减少输入特征空间的维数。

请,有人可以详细解释第二点,即地址缺失数据吗?

1 个答案:

答案 0 :(得分:1)

在这种情况下缺少数据意味着某些样本不具备所有现有功能。

例如:

假设您有一个包含年龄和身高的一组数据库。 这意味着对于某些人来说,身高或年龄都不见了。

现在,为什么这会影响KNN?

给出测试样品 KNN会找到更接近样本的样本(又称:年龄和身高相似的学生)。 KNN这样做是为了根据测试样本的最近邻居对其进行推断。

如果要查找这些邻居,则必须能够计算样本之间的距离。要计算两个样本之间的距离,您必须具有这两个样本的所有功能。

如果其中一些缺少,您将无法计算距离。 因此,隐式地,您将丢失具有丢失数据的样本