Question

我目前正在使用Finereader 11 SDK开展一个小项目。为了改善我的结果，我喜欢使用ad-hoc词典。字典的内容基于某一行的第一个单词

示例：

Samsung Galaxy S3 ... many other word in this line
Apple Iphone 4 ... much more words
some more lines

我的想法是重新识别第一个单词（三星或Apple），并根据第一个单词填写字典（对于三星：Galaxy，S3，......）

任何想法如何使用Finereader解决这个问题

此致

Answer 1

感谢您的澄清。所以这就是我认为你可以做的。这适用于FineReader产品系列，当然在SDK中，您可以通过API进行更具体的控制。

FineReader OCR有这些词典：

内置词典 - 大量常用词及其变体，是ABBYY OCR技术的优势之一。它不包含专门的单词，例如“Samsung”和“S3”。通过选择流行语言，您可以自动打开该语言的内置字典。
自定义词典 - 这是一个字典，您可以构建，单独使用或与内置字典一起使用。

因此，对于您的项目，我认为使用内置字典是有意义的，因为您的短语可能有标准英语单词（您没有提供完整的短语供我查看，因此请自行决定。）

我也非常相信你需要创建一个包含品牌和型号等的自定义词典。如果你有这个选项，听起来和你一样。它将极大地提高识别率，特别是对于诸如“S3”之类的非自然词语，因为共同的语言规则表明字母和数字不应混合。这很容易做到。

我目前看不到使用单独的字典阅读每一行的好处，除非您认为您将有一个非常相似的单词的交集适用于不同的行，并且您希望这些单词在单独的词典中并且相对于每一行。然后，您可以创建单独的词典，并根据初始单词打开每个词典进行二次识别。但是，要实现这一点，您需要首先分成行（在内存中，或实际裁剪图像），以便能够使用唯一字典分别处理每个行。这只能在具有大量工作量的SDK中实现。

Ad-Hoc字典

1 个答案: