algorithm - 什么是近邻的快速近似？

什么是近邻的快速近似？

时间：2011-02-17 22:02:31

标签： algorithm language-agnostic data-mining nearest-neighbor

假设我有一个巨大的（几百万）n个向量列表，给定一个新的向量，我需要从集合中找到一个非常接近的向量，但它不需要是最接近的。（最近邻找到最近并且在n时间内运行）

哪些算法能够以准确度为代价快速逼近最近邻居？

编辑：因为它可能会有所帮助，我应该提到数据在大多数情况下非常流畅，随机维度的可能性很小。

4 个答案:

答案 0 :(得分：2)

存在更快的算法然后On）以任意距离搜索最近的元素。查看http://en.wikipedia.org/wiki/Kd-tree了解详情。

答案 1 :(得分：2)

如果您使用高维矢量，如SIFT或SURF或多媒体扇区中使用的任何描述符，我建议您考虑使用LSH。

来自Wei Dong（http://www.cs.princeton.edu/cass/papers/cikm08.pdf）的博士论文可能会帮助您找到更新的KNN搜索算法，即LSH。与传统的LSH不同，如麻省理工学院研究人员早些时候发表的E2LSH（http://www.mit.edu/~andoni/LSH/），他的算法使用多探测来更好地平衡召回率和成本之间的权衡。

答案 2 :(得分：1)

对“最近邻居”lsh库进行网络搜索 http://www.mit.edu/~andoni/LSH/ http://www.cs.umd.edu/~mount/ANN/ http://msl.cs.uiuc.edu/~yershova/MPNN/MPNN.htm

答案 3 :(得分：1)

对于近似最近邻居，最快的方法是使用局部敏感散列（LSH）。 LSH有很多变种。您应该根据数据的距离指标选择一个。 LSH的查询时间的大O与数据集大小无关（不考虑输出结果的时间）。所以它真的很快。这个LSH library实现了L2（Euclidian）空间的各种LSH。

现在，如果您的数据维度小于10，如果您想要精确的结果，则首选kd tree。