与sklearn k最近邻居的问题

时间:2016-05-14 16:54:19

标签: algorithm python-2.7 duplicates scikit-learn nearest-neighbor

我想知道是否有办法强制sklearn NearestNeighbors算法,在有重复点时考虑输入数组中某个点的顺序。

举例说明:

>>> from sklearn.neighbors import NearestNeighbors
>>> import numpy as np

X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
nbrs = NearestNeighbors(n_neighbors=2, algorithm='ball_tree').fit(X)
distances, indices = nbrs.kneighbors(X)
indices                                           
>>>> array([[0, 1],
     [1, 0],
     [2, 1],
     [3, 4],
     [4, 3],
     [5, 4]])

因为查询集与训练集匹配,所以每个点的最近邻居是点本身,距离为零。但是,如果我允许X中的重复点,那么算法可以理解,不区分重复:

X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1],[3, 2],[-1,-1],[-1,-1]])
nbrs = NearestNeighbors(n_neighbors=2, algorithm='auto').fit(X)
distances, indices = nbrs.kneighbors(X)
indices 
>>>> array([[6, 0],
   [1, 0],
   [2, 1],
   [3, 4],
   [4, 3],
   [5, 4],
   [6, 0],
   [6, 0]])

理想情况下,我希望最后一个输出类似于:

    >>>> array([[0, 6],
   [1, 0],
   [2, 1],
   [3, 4],
   [4, 3],
   [5, 4],
   [6, 0],
   [7, 6]])

1 个答案:

答案 0 :(得分:1)

我认为你不能这样做,因为我们得到了ref

  

警告:关于最近邻居算法,如果是两个邻居,   邻居 k + 1 k ,距离相同但标签不同   结果将取决于培训数据的顺序。