math - 余弦相似度LSH和随机超平面

以几何方式思考。想象一下您的数据就像高维空间中的点。

创建随机超平面（只是更高维度的平面），使用你的想象力进行缩小。

这些超平面切割您的数据（点），创建分区，其中一些点与其他点分开（分区中的每个点;将是粗略的近似）。

现在应根据超平面形成的分区填充存储桶。因此，每个桶包含的点数远远少于点集的总大小（因为我之前谈过的每个分区都包含的点数少于点集的总大小）。

因此，当您提出查询时，您检查的点数（在桶的帮助下）要比总大小少得多。这是所有的收获，因为检查更少的点，意味着你比蛮力方法做得更好（更快），蛮力方法检查所有点。