Question

我有一个~1200“唯一”字符串的列表（我称之为“类别”），每个字符串都与5-30（ish）个字符串相关联（我称之为“项目” “）。这些已经过去15年左右手工输入，现在我们正在尝试将信息放入具有项目列表的类别的可重复使用的“库”中。有人要手工清理这个库，但我想给他们一些帮助。

我希望能够向用户呈现类别和项目的可能重复项，但我不确定如何定义“可能重复”。大多数模糊搜索算法似乎都认为单词拼写错误，或者可能使用同义词或同音异义词，但在我的情况下，相同的单词更有可能是以不同的顺序排列，或者某些单词被添加为一年法律原因。

我希望能够为他们提供如下列表：

The fox jumped
The quick fox jumped over a log
A quick brown fox jumped over a mushroom-covered log
A log sits where a fox jumped over it

他们不太可能使用同义词，而且单词拼写错误的可能性极小，但很可能是条款无序。

SO的“类似问题”算法似乎是这样做的，它似乎比我能想到的“哑”算法更快更有效。谁能告诉我怎么样？我将在C＃中实现它，数据存储在SQL Server中，所以如果只有我可以使用的东西，我也很感激这些信息。