比较字符串的相似之处?

时间:2012-11-05 16:08:34

标签: string algorithm list graph distance

我想在数千个条目列表中计算某些大学课程发生的次数。问题是课程并不总是拼写相同。例如,Computer Engineering可以拼写为Computers Engineering。如果2个字符串非常相似,测试它的正确,优雅的方法是什么?

1 个答案:

答案 0 :(得分:2)

我会尝试使用stemming 强化字符串。这个想法是 - 给每个字符串赋予其经典形式,并且代表相同单词的两个不同字符串很可能具有相同的经典形式(例如,ComputerComputers将具有相同的大炮表格,你会得到一个匹配)。

Porter stemming algorithm通常用于册封。


另一种选择 - 将字符串与彼此之间的距离进行评分,建议的Levenshtein Distance可以帮助您,但我个人 - 我更喜欢经典化。