python - 将文本搜索添加到基于内容的图像检索（convnet）

我已经使用标准的ConvNet方法实现了CBIR应用程序：

我得到了不错的结果，但是我也想通过添加文本搜索来进一步改善它们。例如，当我的图像是汽车的方向盘时，接近的结果将是任何类似于方向盘的圆形物体，例如自行车车轮。输入文字（例如“汽车零件”）以仅产生类似于搜索图像的方向盘的最佳方法是什么。

我找不到将ConvNet与文本搜索模型结合以构建改进的knn网络的好方法。

我的另一个想法是使用ElasticSearch进行文本搜索，这是ElasticSearch擅长的事情。例如，我将进行先前描述的CBIR搜索，并从返回结果中进行查找，然后查找它们的描述，然后对匹配的子集使用ElasticSearch来生成结果。也许用类别标记图像，并允许用户取消/选择感兴趣的图像组。

我不想在图像搜索之前进行文本搜索，因为某些图像描述不清，因此文本搜索会错过它们。

任何想法或想法都会受到赞赏！