提高搜索结果的相关性

时间:2012-12-13 11:36:26

标签: algorithm search full-text-search search-engine morphological-analysis

我遇到了使搜索输出对最终用户更实用的问题。问题与算法和方法有关,然后与确切的技术或框架有关。

目前我们有一个产品数据库,可以用以下模式描述:

http://goo.gl/391qj

从搜索的角度来看,我们已经完成了非常标准的事情,使用令牌分析器进行第三方文本搜索,处理错误类型和同义词(它不是完整列表,但正如我所说,它超出了范围)。但是我们需要执行额外的工作来使搜索结果更接近现实生活中的用户需求,可能与谷歌按相关性对索引页面进行排序的方式类似。想法,我们已经认为可能适用于解决问题:

  • 分析广泛搜索引擎中最受欢迎的搜索请求(仍然是如何获取它们的问题)并增加索引中这些条目的排名,这些条目与流行请求相对应(可以找到);
  • 提高最新(热门)参赛作品的排名;
  • 提高最大条目组的排名,这些条目对应于热门请求并且有一些共同点(这就是为什么它是一个组);

感谢任何帮助或建议方向,在哪里挖掘。

1 个答案:

答案 0 :(得分:1)

您可以尝试pLSA;网上有很多参考文献,应该有图书馆和源代码。

编辑:

好吧,我最近仔细看了一下Lucene,它似乎给出了一个更好的答案,实际问题是什么(它没有使用pLSA)。至于与db的集成,你可以使用Hibernate Search(虽然它看起来不像使用Lucene directy那样强大)。