大致文本匹配

时间:2017-06-15 07:34:25

标签: algorithm text pattern-matching ocr

我需要比较两段文字,比如200字长。由于这些是通过OCR获得的,因此差异可能出现在两个层面:

  • 单词拼写错误,

  • 整个单词可能会丢失或合并,或插入额外的寄生块(在极端情况下,可以交换单词组)。

识别的输出将是相似性得分。我不认为将整个文本作为长字符串匹配就足够了。

您是否了解专门解决此问题的方法(两级Levenshtein ??)。有库吗?

(我不是在寻找OCR包。)

0 个答案:

没有答案
相关问题