选择性编辑距离

时间:2015-10-15 11:32:58

标签: string algorithm levenshtein-distance fuzzy-search

我有像

这样的数据
{{1}}

现在问题是我要清理它。我使用编辑距离1进行了编辑距离处理,并处理了Mega Mall案例。短暂的到来是它删除L& T Gate 5,2也是[我保留第一个条目]。有什么方法可以解决这个问题,而不是删除这些案例和处理拼写错误等。

1 个答案:

答案 0 :(得分:1)

是的,您可以使用加权形式的编辑距离,而无需真正更改算法或其时间或空间复杂度。而不是将任何替换,插入或删除计为1,当涉及的字符(或替换的任一字符)是数字时,将其计为更高的数字。

甚至可以不同地对字符串中的特定位置进行加权。例如。您可能会认为紧跟一个或多个数字的每个字母都应该被认为更重要(因为例如地址123B与123非常不同)。