将文本搜索添加到基于内容的图像检索(convnet)

时间:2019-01-23 21:18:55

标签: python machine-learning deep-learning computer-vision conv-neural-network

我已经使用标准的ConvNet方法实现了CBIR应用程序:

  1. 使用转移学习从图像数据集中提取特征
  2. 通过knn集群提取特征
  3. 给出搜索图像,提取其特征
  4. 给出与knn网络中的​​手头图像最接近的前10张图像

我得到了不错的结果,但是我也想通过添加文本搜索来进一步改善它们。例如,当我的图像是汽车的方向盘时,接近的结果将是任何类似于方向盘的圆形物体,例如自行车车轮。输入文字(例如“汽车零件”)以仅产生类似于搜索图像的方向盘的最佳方法是什么。

我找不到将ConvNet与文本搜索模型结合以构建改进的knn网络的好方法。

我的另一个想法是使用ElasticSearch进行文本搜索,这是ElasticSearch擅长的事情。例如,我将进行先前描述的CBIR搜索,并从返回结果中进行查找,然后查找它们的描述,然后对匹配的子集使用ElasticSearch来生成结果。也许用类别标记图像,并允许用户取消/选择感兴趣的图像组。

我不想在图像搜索之前进行文本搜索,因为某些图像描述不清,因此文本搜索会错过它们。

任何想法或想法都会受到赞赏!

1 个答案:

答案 0 :(得分:1)

我还没有找到原始论文,但是也许您会发现它有趣:https://www.slideshare.net/xavigiro/multimodal-deep-learning-d4l4-deep-learning-for-speech-and-language-upc-2017

这是关于查找图像和文本都位于(多峰嵌入)的向量空间。这样,您可以查找与图像相似的文本,引用文本的图像,或使用元组文本/图像查找相似的图像。

我认为这个想法可能是一个有趣的起点。