以最低成本替换单词,Jellyfish python

时间:2014-02-05 06:19:55

标签: python regex nltk jaro-winkler

我有一个包含正确拼写的单词列表,名为ref.txt。我有一个句子列表,我已设法使用正则表达式从他们中提取单词。我将以一个例子详细说明 假设ref.txt包含 - Mumbai , Andheri ,Jacob Circle, Bandra。 我有一个句子列表,如 -

['Blue Meadows near andhri ', 'Oberoi Heights opp windy road off Bnadra' , 
'Red Heavens club ,behind Mumbia club near Jacob Circle']  

关于水母的文件很多。

import jellyfish as jf  
jf.jaro_distance(andhri,andheri)

问题是,在使用正则表达式提取单词后,我如何将它与整个列表进行比较..我的算法应该自动建议'andheri'为andhri由于成本最低..
如果您有其他想法要实施,请继续推荐..谢谢

1 个答案:

答案 0 :(得分:0)

因此,根据我的理解,您希望程序建议最接近用户输入的单词。没有简单的方法可以做到这一点。你必须逐个字符比较。将“andhri”中的每个字符与列表中每个单词的字符进行比较。并保持一个柜台。优选地,计数器列表对您更有效。将列表中每个单词中的每个字母与“andhri”中的字母进行比较,每次获得匹配时,递增相应的计数器。完成将列表中每个单词的每个字符与“andhri”进行比较后,请检查计数器。应向用户建议与最高计数器对应的单词。

相关问题