nearest-neighbor - 使用相同数据集的K-最近邻密度估计，k = 5

它是关于非参数密度估计。

因此，我们有2个不同的数据220“好数据”值和30个“打破数据”值我们应该使用k-最近邻密度估计来估计p（x | c =“良好数据”）

在k = 5的情况下，我们得到p（x | c = good）=（5/220）*（1 / V）。

如果我有正确的理解，通过k-nearest-neighbor我们应该确定V然后得到 p（x | c =好）如果我们必须找出5分的V，那么我们可以求解p（x | c = good）

我有一个问题，如何绘制和计算这个概率。有书http://content.foto.mail.ru/mail/zurix/_mypagephoto/h-67.jpg的图片蓝色曲线在K最近邻密度估计的图形上意味着什么（你可以看到附加）？这条曲线可以显示不同V的边界吗？如果是，那么类之间的确切边界，每个类由5个点组成???

提前谢谢!!

如果没有任何其他信息（例如图标题或书名），很难猜出两条曲线的含义。

我最好的猜测是绿色曲线是真实的（一维）密度，从中得出数据点样本。蓝色曲线似乎是三个不同k值的最终密度估计函数。

这应该说明正确选择k的重要性，对于k = 1，这会过度拟合数据（得到的密度估计函数的高方差），对于k = 30，这会“过度”数据（结果的高偏差）密度估计函数）因为它不会再现0.3左右的凸起。

事实上，看看k = 1的例子，它看起来像是而不是使用纯1 / V而是一些加权函数。对于每点的纯1 / V估计，我期望分段常数函数（仅水平线条）。

使用相同数据集的K-最近邻密度估计，k = 5

1 个答案: