使用相同数据集的K-最近邻密度估计,k = 5

时间:2013-06-01 21:50:15

标签: nearest-neighbor

它是关于非参数密度估计。

因此,我们有2个不同的数据220“好数据”值和30个“打破数据”值 我们应该使用k-最近邻密度估计来估计p(x | c =“良好数据”)

在k = 5的情况下,我们得到p(x | c = good)=(5/220)*(1 / V)。

如果我有正确的理解,通过k-nearest-neighbor我们应该确定V然后得到 p(x | c =好) 如果我们必须找出5分的V,那么我们可以求解p(x | c = good)

我有一个问题,如何绘制和计算这个概率。 有书http://content.foto.mail.ru/mail/zurix/_mypagephoto/h-67.jpg的图片  蓝色曲线在K最近邻密度估计的图形上意味着什么(你可以看到附加)?这条曲线可以显示不同V的边界吗?如果是,那么类之间的确切边界,每个类由5个点组成???

提前谢谢!!

1 个答案:

答案 0 :(得分:0)

如果没有任何其他信息(例如图标题或书名),很难猜出两条曲线的含义。

我最好的猜测是绿色曲线是真实的(一维)密度,从中得出数据点样本。蓝色曲线似乎是三个不同k值的最终密度估计函数。

这应该说明正确选择k的重要性,对于k = 1,这会过度拟合数据(得到的密度估计函数的高方差),对于k = 30,这会“过度”数据(结果的高偏差)密度估计函数)因为它不会再现0.3左右的凸起。

事实上,看看k = 1的例子,它看起来像是而不是使用纯1 / V而是一些加权函数。对于每点的纯1 / V估计,我期望分段常数函数(仅水平线条)。