Ad-Hoc字典

时间:2014-07-30 21:17:23

标签: ocr abbyy finereader

我目前正在使用Finereader 11 SDK开展一个小项目。为了改善我的结果,我喜欢使用ad-hoc词典。字典的内容基于某一行的第一个单词

示例:

Samsung Galaxy S3 ... many other word in this line
Apple Iphone 4 ... much more words
some more lines

我的想法是重新识别第一个单词(三星或Apple),并根据第一个单词填写字典(对于三星:Galaxy,S3,......)

任何想法如何使用Finereader解决这个问题

此致

1 个答案:

答案 0 :(得分:2)

感谢您的澄清。所以这就是我认为你可以做的。这适用于FineReader产品系列,当然在SDK中,您可以通过API进行更具体的控制。

FineReader OCR有这些词典:

  • 内置词典 - 大量常用词及其变体,是ABBYY OCR技术的优势之一。它不包含专门的单词,例如“Samsung”和“S3”。通过选择流行语言,您可以自动打开该语言的内置字典。

  • 自定义词典 - 这是一个字典,您可以构建,单独使用或与内置字典一起使用。

因此,对于您的项目,我认为使用内置字典是有意义的,因为您的短语可能有标准英语单词(您没有提供完整的短语供我查看,因此请自行决定。)

我也非常相信你需要创建一个包含品牌和型号等的自定义词典。如果你有这个选项,听起来和你一样。它将极大地提高识别率,特别是对于诸如“S3”之类的非自然词语,因为共同的语言规则表明字母和数字不应混合。这很容易做到。

我目前看不到使用单独的字典阅读每一行的好处,除非您认为您将有一个非常相似的单词的交集适用于不同的行,并且您希望这些单词在单独的词典中并且相对于每一行。然后,您可以创建单独的词典,并根据初始单词打开每个词典进行二次识别。但是,要实现这一点,您需要首先分成行(在内存中,或实际裁剪图像),以便能够使用唯一字典分别处理每个行。这只能在具有大量工作量的SDK中实现。