搜索引擎中的邻近搜索

时间:2014-06-06 03:38:40

标签: search-engine information-retrieval

请告诉我为什么搜索引擎在排名页面时不利用邻近度。有什么限制阻碍搜索引擎明确地不使用邻近度。

2 个答案:

答案 0 :(得分:0)

要直接使用邻近度信息,索引需要将文档中每个术语的位置存储为每个术语的发布列表的一部分。用于位置索引的过帐列表的大小通常是标准索引大小的4x-5x。这不仅会消耗额外的I / O资源,而且还会导致检索时间变慢,因为检索评分现在也必须考虑每个匹配的位置(带有文档术语的查询术语)。

但是搜索引擎不能简单地忽略术语接近度,因为它在捕获潜在语义概念方面起着重要作用,特别是对于多词表达。因此,标准且有效的解决方案是编制集合的最常见短语列表并将这些短语作为整体索引(即将它们视为倒置列表中的单独术语)。例如,搜索引擎可能有单独的帖子列表,用于术语"德语"," Shepherd"和短语"德国牧羊犬"。这确保了包含短语"德国牧羊犬"比只有德国人或牧羊人的比赛排名更好。

答案 1 :(得分:0)

但谷歌利用了接近度:

阅读:

http://infolab.stanford.edu/~backrub/google.html

  

4.5.1排名系统

     

接近程度取决于文档(或锚点)中的命中距离,但是分为10个不同的值" bins"从短语匹配到"甚至不接近"。计算不仅针对每种类型的命中计算,而且针对每种类型和邻近度计算。每种类型和邻近对都具有类型接近权重。

相关问题