模糊字符串匹配

时间:2011-07-10 09:02:29

标签: groovy ocr tesseract fuzzy-comparison

在某些图像上运行光学字符识别后,我得到了近似文本。通常认可度不高。例如,实际文本“DATE”为“DHTE”或“0HTE”。基本上我需要识别并提取每行中的数据,所以我不想要完美识别,只需要足以识别日期行。我试图计算Levenshtein编辑距离,但不幸的是,它倾向于给DATE和TIME提供类似的值。目前,我正在尝试探索是否可以使用正则表达式来匹配数据模式。

是否有方法/算法来改善匹配过程?幸运的是,我的单词不是很大。

(我正在使用tesseract for ocr和groovy / java作为算法)

1 个答案:

答案 0 :(得分:1)

这个有一些很酷的算法 http://secondstring.sourceforge.net/

这是StringUtils中的基本内容 levenstein distance