OCR预先知道字体的图像

时间:2017-01-09 20:33:47

标签: fonts ocr

我需要检索大量旧数据,这些数据存储为一系列图像。它们都具有相同的背景和文本颜色,都使用相同字体的Verdana。像这样:

Example text

我尝试过的是计算列中的像素并将单个字形与我之前“编码”的字形数据库相匹配。工作得很好,但有两个主要问题

1)keming - 如果我在字符之间碰到一个空格,我会检查我选中的字形。当两个字符重叠时,这不起作用。我通过在我的数据库中添加所有字母组合来解决它 2)别名 - 这是我的最终问题 - 由于别名,单个字母可以以多种不同的方式查看,并且几乎每个别名情况看起来都是唯一的,所以我不能完全建立一个“那些看起来像A的数据库”改变我的识别码方法

那么:是否有一种工具可以识别处理锯齿的图像上的特定字体?

除了使用tesseract之外,我真的很感激解决方案,由于复杂性和重量,这是我的最后选择

1 个答案:

答案 0 :(得分:0)

显然,最简单的方法是使用好的OCR工具。我将此图像插入OCRSDK.com的演示页面并完美处理。 enter image description here 它是商业性的,但有一些免费的识别,所以你可以玩arround并决定它是否适合你。它是Web API,因此插入您的应用程序非常简单,并且code samples可用。

所以,没有任何字体训练,它可能已经足够好了。但是,如果准确性仍然不够,那么您可能需要查看字体训练。但对于任何OCR引擎来说,这都是相当复杂的过程。但是,发明自己的OCR仍然更容易。

免责声明:我为ABBYY工作