模糊字符串匹配SQL - 不同顺序的单词

时间:2018-01-22 11:27:56

标签: sql-server algorithm tsql pattern-matching fuzzy-search

如何匹配不精确且具有不同单词顺序的字符串。通常字符串具有相似的数字模式,但单词可能的顺序不同。

例如,我会考虑匹配良好的字符串:

目标字符串Apple 10mg/51L Tail

测试字符串Tail 10mg/51L Apple(只是随机翻译,拼写正确)

我还会考虑以下字符串之间的良好匹配:

测试字符串51L MissleadingLENWord ObfuscateTail 10mg Apple(如果我们用LIKE子句逐个检查每个单词,即#34; Tail&#,可以在测试字符串中找到目标字符串的所有单词34;目标字符串可以在单词" ObfuscateTail")中的测试字符串中找到。

我希望在函数中看到这个问题的解决方案返回百分比数字,这意味着字符串有多相似 - 零 - 字符串不同,100%两个字符串都相同。

我应该使用哪种algorytm?如果可以使用SQL Server实现它是最好的。

我可以在这里找到一些算法:Fuzzy matching using T-SQL。 领先答案中提到的 Levenshtein 距离算法是否适合于单词的混合顺序?

3 个答案:

答案 0 :(得分:4)

只要单词被分开(空白,/或任何其他分隔符),这可以通过字符串拆分器和命中计数来完成,但是你找不到" Tail& #34; in" ObfuscateTail"。您还需要一些 CamelCase解析 ......

一个相当简单的解决方法是使用所有碎片进行LIKE搜索,但这可能会带来很多 - 而且(肯定!)这不会很快......

尝试这样的事情:

DECLARE @mockupTable TABLE(ID INT IDENTITY, YourTarget VARCHAR(100));
INSERT INTO @mockupTable VALUES('51L MissleadingLENWord ObfuscateTail 10mg Apple')
                              ,('Some other 51L with differing words');

DECLARE @search VARCHAR(100)='Apple 10mg/51L Tail';

WITH Parted AS
(
    SELECT CAST('<x>' + REPLACE(REPLACE(@search,' ','/'),'/','</x><x>') + '</x>' AS XML) AS SearchFragmentsXML
)
,AllSearchWords AS
(
    SELECT frgmnt.value(N'.',N'nvarchar(max)') AS Frg 
    FROM Parted 
    CROSS APPLY SearchFragmentsXML.nodes(N'/x') AS A(frgmnt)
)
SELECT ID
      ,COUNT(*) AS CountHits
      ,(SELECT COUNT(*) FROM AllSearchWords) AS CountFragments
FROM @mockupTable AS t
INNER JOIN AllSearchWords AS Frgs ON t.YourTarget LIKE '%' + Frgs.Frg + '%'
GROUP BY ID;

结果

ID  CountHits   CountFragments
1   4           4
2   1           4

命中次数越接近&#34;对于片段的数量&#34;越好。

更新:功能(不推荐)

DROP FUNCTION dbo.YourSearch;
GO
CREATE FUNCTION dbo.YourSearch(@SearchIn VARCHAR(MAX), @SearchFor VARCHAR(100)='Apple 10mg/51L Tail')
RETURNS FLOAT
AS
BEGIN
DECLARE @rslt DECIMAL(10,4) =
(
    SELECT CAST(COUNT(*) AS FLOAT) / MAX(SearchFragmentsXML.value('count(/x[text()])','float'))
    FROM 
    (
        SELECT CAST('<x>' + REPLACE(REPLACE(@SearchFor,' ','/'),'/','</x><x>') + '</x>' AS XML) AS SearchFragmentsXML
    ) AS Parted
    CROSS APPLY SearchFragmentsXML.nodes(N'/x') AS A(frgmnt)
    WHERE @SearchIn LIKE '%' + frgmnt.value(N'text()[1]',N'nvarchar(max)') + '%'
);

RETURN @rslt;
END
GO

DECLARE @mockupTable TABLE(ID INT IDENTITY, YourTarget VARCHAR(100));
INSERT INTO @mockupTable VALUES('51L MissleadingLENWord ObfuscateTail 10mg Apple')
                              ,('Some other 51L with differing words');

SELECT t.*
      ,dbo.YourSearch(t.YourTarget,'Apple 10mg/51L Tail') AS HitCoeff
FROM @mockupTable AS t;

结果

ID  YourTarget                                          HitCoeff
1   51L MissleadingLENWord ObfuscateTail 10mg Apple     1
2   Some other 51L with differing words                 0,25

提示:如果您使用带有SessionID的物理表格,那么它会有很大帮助,您可以在其中填写搜索字符串的片段。然后将SessionID传递给函数并从那里抓取碎片。这至少会避免重复拆分,并且可以使用结果缓存。

答案 1 :(得分:1)

您正在寻找通常称为词组匹配的内容。

模糊的单词和单词变得凌乱。

所有方法都从拆分单词开始。

您可以使用Levenshtein distance距离,但可以使用单词中不包含字符的单词。你可以拿出这个词的哈希值。不完美但基于散列会更快。

这里常见的最佳做法是tf–idf。这是Lucene使用的。您可能认为它有点激烈但我在一个包含100万个文档的库中使用了最多100,000个单词并且它在不到1秒的时间内找到了排名匹配。再一次,你不会在这个词中变得模糊。

Cosine similarity是另一种选择。

模糊的话,你可以对Levenshtein反对每个单词并取最小的然后做一些总和。我不推荐这条路线。

答案 2 :(得分:0)

我还没有发现任何可以衡量字符串中单词混排的东西。为了换个字母,我最后使用了这个答案:https://stackoverflow.com/a/26389197/1903793

CREATE ASSEMBLY [FuzzyString]
FROM 
WITH PERMISSION_SET = SAFE
GO

CREATE FUNCTION [dbo].[Levenshtein](@S1 [nvarchar](200), @S2 [nvarchar](200))
RETURNS [float] WITH EXECUTE AS CALLER
AS 
EXTERNAL NAME [FuzzyString].[StoredFunctions].[HaBoLevenshtein]
GO

示例用法:

select [dbo].[Levenshtein] ('Apple', 'Appleee')
相关问题