什么是SO的重复搜索算法?

时间:2017-01-19 21:02:25

标签: algorithm duplicates

我有一个~1200“唯一”字符串的列表(我称之为“类别”),每个字符串都与5-30(ish)个字符串相关联(我称之为“项目” “)。这些已经过去15年左右手工输入,现在我们正在尝试将信息放入具有项目列表的类别的可重复使用的“库”中。有人要手工清理这个库,但我想给他们一些帮助。

我希望能够向用户呈现类别和项目的可能重复项,但我不确定如何定义“可能重复”。大多数模糊搜索算法似乎都认为单词拼写错误,或者可能使用同义词或同音异义词,但在我的情况下,相同的单词更有可能是以不同的顺序排列,或者某些单词被添加为一年法律原因。

我希望能够为他们提供如下列表:

The fox jumped
The quick fox jumped over a log
A quick brown fox jumped over a mushroom-covered log
A log sits where a fox jumped over it

他们不太可能使用同义词,而且单词拼写错误的可能性极小,但很可能是条款无序。

SO的“类似问题”算法似乎是这样做的,它似乎比我能想到的“哑”算法更快更有效。谁能告诉我怎么样?我将在C#中实现它,数据存储在SQL Server中,所以如果只有我可以使用的东西,我也很感激这些信息。

0 个答案:

没有答案
相关问题