knn - “解决丢失的数据”如何帮助KNN更好地发挥作用？

来源：-https://machinelearningmastery.com/k-nearest-neighbors-for-machine-learning/

此页面的一节引用了以下段落：-

KNN的最佳准备数据

重新缩放数据：如果所有数据的比例都相同，则KNN的效果会更好。将数据标准化为[0，1]范围是一个好主意。如果数据具有高斯性，也可能是一个好主意   分布。

地址丢失数据：数据丢失意味着无法计算样本之间的距离。可以排除这些样本，也可以估算缺失值。

较低维度：KNN适用于较低维度的数据。您可以在高维数据（数百或数千个输入变量）上尝试使用它，但要注意，它的性能可能不如其他技术好。 KNN可以从特征选择中受益，该选择可以减少输入特征空间的维数。

请，有人可以详细解释第二点，即地址缺失数据吗？

在这种情况下缺少数据意味着某些样本不具备所有现有功能。

例如：

假设您有一个包含年龄和身高的一组数据库。这意味着对于某些人来说，身高或年龄都不见了。

现在，为什么这会影响KNN？

给出测试样品 KNN会找到更接近样本的样本（又称：年龄和身高相似的学生）。 KNN这样做是为了根据测试样本的最近邻居对其进行推断。

如果要查找这些邻居，则必须能够计算样本之间的距离。要计算两个样本之间的距离，您必须具有这两个样本的所有功能。

如果其中一些缺少，您将无法计算距离。因此，隐式地，您将丢失具有丢失数据的样本

“解决丢失的数据”如何帮助KNN更好地发挥作用？

1 个答案: