字符串相似度得分的数学函数

时间:2016-05-12 12:45:47

标签: math string-comparison

我正在研究字符串相似度算法,并在考虑如何在比较两个字符串时给出0到1之间的分数。这个函数的两个变量是Levenshtein距离 D :(添加,删除和更改的字符)和两个字符串 L 的最大长度(但你也可以使用平均)。

我的初始算法只是1-D/L,但这对短字符串的得分过高,例如'tree'和'bee'得分为0.5,对于较长的字符串得分太低,即使一半字符不同,也会有更多共同点。

现在我正在寻找可以输出更好分数的数学函数。我无法想出一个,所以我勾勒出3D图的高度图( L 是x和 D = y)。

Example height map

有没有人知道如何将这样的图表转换为等式,如果我最好只创建一个查找表或者是否有现有的解决方案?

0 个答案:

没有答案