Sphinx如何处理URL

时间:2011-10-11 15:44:28

标签: postgresql sphinx

使用PostgreSQL时,您可以在使用全文搜索时将URL拆分为多个不同的词汇。例如:

SELECT to_tsvector('http://www.example.com/dir/page.html');
                               to_tsvector                                
--------------------------------------------------------------------------
 '/dir/page.html':3 'www.example.com':2 'www.example.com/dir/page.html':1
(1 row)

您可以看到PostgreSQL已将http://www.example.com/dir/page.html分解为URL减去协议(www.example.com/dir/page.html),主机(www.example.com)和url_path(/dir/page.html)。这很方便,因为它可以让您快速搜索www.example.com

在此背景下,SphinxSearch如何处理索引URL?它是否与PostgreSQL类似,它将URL拆分为多个部分,以便轻松搜索?

1 个答案:

答案 0 :(得分:0)

它实际上只是使用charset_table中未列出的任何字符来分解源文本

通常如此。和/只算作分隔符,这样一个网址就可以被字母组搜索 - 有用地结合短语运算符