SQL Server CONTAINSTABLE不适用于单个数字的数字

时间:2018-01-11 17:03:50

标签: sql sql-server full-text-search

这个问题与SQL Server's FTS ContainsTable有关。

要复制此问题,我们可以使用下面的脚本创建一个表并用地址填充。

CREATE TABLE Address (FullAddress nvarchar(100) NOT NULL);  
CREATE UNIQUE CLUSTERED INDEX AddressKey ON Address(FullAddress);  
INSERT INTO Address VALUES ('1 OLD YONGE ST, AURORA, ON');  
INSERT INTO Address VALUES ('1 OLD YONGE ST, NORTH YORK, ON');
INSERT INTO Address VALUES ('1 YONGE ST N UNIT 1, HUNTSVILLE, ON');
INSERT INTO Address VALUES ('1 YONGE ST N UNIT 10, HUNTSVILLE, ON');
INSERT INTO Address VALUES ('18 YONGE ST UNIT 324, TORONTO, ON');
INSERT INTO Address VALUES ('10415 YONGE ST UNIT 1, RICHMOND HILL, ON');
INSERT INTO Address VALUES ('11211 YONGE ST UNIT 37 BUILDING A, RICHMOND HILL, ON');

现在我们将创建全文目录并在其上创建索引。

CREATE FULLTEXT CATALOG AddressCat;  
CREATE FULLTEXT INDEX ON Address(FullAddress) KEY INDEX AddressKey ON AddressCat; 

问题

如果我们运行查询并搜索以 1 开头的地址(注意这是一个数字)而 1 NEAR下一个字词这是 Yong ,我们期望它返回上面的所有前4个记录。这是查询:

SELECT * FROM CONTAINSTABLE (Address, FullAddress, '"1" NEAR "Yon*"') ORDER BY RANK DESC;

但是,它不返回任何行。 这就是问题。

但是如果我们执行带有两位数的查询,例如 11 10 ,那么它将按预期返回记录。

问题:

为什么ContainsTable不会返回任何单位数搜索结果?

1 个答案:

答案 0 :(得分:2)

查找问题的原因

我尝试了很多方法,例如将查询更改为:

SELECT * FROM CONTAINSTABLE (Address, FullAddress, 'NEAR((1, YONGE), 5, TRUE)') 
-- or this
SELECT * FROM CONTAINSTABLE (Address, FullAddress, '1 YON*')

但没有任何运气。

经过一些网上搜索,我开始思考(因为问题只发生在一位数上),这可能与Stopwords有关:

  

<强>停用词即可。禁用词可以是具有特定语言含义的词。例如,在英语中,诸如“a”,“and”,“is”和“the”之类的词语被排除在全文索引之外,因为已知它们对于搜索是无用的。禁用词也可以是没有语言意义的令牌。

然后在SO Answer的帮助下,我能够弄清楚SQL Server如何解释我的搜索。以下是查询和查询结果:

select * from sys.dm_fts_parser('"1" NEAR "Yon*"',2057, 0, 0)

enter image description here

请注意搜索字词 1 如何被视为 Noise 。这就是问题所在。然后运行this query帮助我找到所有的噪音词,确定 0-9 的数字都在那里:

SELECT ssw.*, ssw.stopword, slg.name
      FROM sys.fulltext_system_stopwords ssw
      JOIN sys.fulltext_languages slg
      ON slg.lcid = ssw.language_id
      WHERE slg.lcid = 1033 -- English

<强>解决方案

一种解决方案是从干扰词中删除单个数字。但我找不到怎么做。实际上,在我的情况下,无论如何我都不会想到,因为我系统的用户只会搜索地址,所以如果他们输入 ,我不希望系统将其视为噪音,因为他们可能正在搜索以开头的街道

我使用下面的查询完全删除了停止列表,现在一切都按预期工作:

ALTER FULLTEXT INDEX ON [Address] SET STOPLIST = off

希望这有助于其他人。

相关问题