image-processing - 类似图像：一堆功能/视觉词或匹配描述符？

我有一个应用程序，给定合理数量的图像（比方说20K）和查询图像，我想找到最相似的一个。合理的近似是可行的。

为了保证表示每个图像的精确度，我使用SIFT（并行版本，以实现快速计算）。

现在，给定n SIFT描述符的集合（其中500<n<1000通常，取决于图像大小），可以表示为矩阵n x 128，从我看到的在文献中，我的案例有两种可能的方法：

匹配描述符：我们将每个描述符向量映射到低维空间，我们尝试找到最相似的近似值，例如通过LSH。然后，我们增加查询图像和图像之间相对于找到的类似描述符的匹配数。我们在所有descritors上迭代这个过程。最后，我们返回结果描述符数最多的图像匹配。
功能包：我们按照BoF模型为每个图像创建直方图矢量。假设我们使用k - 表示（例如k=128），我们为每个图像获取k - 维向量。由于k可能太大而无法进行有效比较，我们可以再次通过LSH将其映射到较小的（可能是二进制的）空间（正如我们在1中所做的那样）。最后，作为reslut，我们返回最相似的直方图。请注意，这种方法的一个大问题是，正如我在this question中所讨论的，为了快速定义直方图，我们需要再次使用LSH（多么糟糕！）。

我很惊讶我没有找到这两种方法的比较。我的问题是：我们必须为每一个人考虑什么？这两个方法有研究吗？第一种方法似乎更有效，并且对于这样的数据集是可行的。