OCR结合字体识别?

时间:2011-01-05 06:10:30

标签: ocr

假设您有一个如下图像:

alt text

如何构建分析此图像的服务,并在几秒钟的处理过程中,显示​​包含与每个文本区域对应的可编辑区域的文档:

alt text

(矩形用于显示每个可编辑区域的边界。)

该软件需要结合多种技术:

  • 字体检测(最接近的匹配)
  • 文本样式确定(CSS等效字体大小,字体粗细,行高,字母间距,字体变体,文本修饰等)

从这里,用户可以编辑每个框中的文本来修改文档。

2 个答案:

答案 0 :(得分:1)

这是常见的OCR引擎通常所做的事情。看看ABBYY FineReader,Omnipage,Cuneiform,Google Tessetact,Expervision等......

这并不像看起来那么容易,因为许多商用OCR引擎仍然犯了愚蠢的错误,而且大多数引擎都需要数年才能开发出来。

找到段落边界框的问题是OCR过程的一部分。在你的情况下,段落分区很简单,但想到报纸或杂志的页面,工作变得更加困难。

背景保存问题同样困难。简单的单色背景很容易删除,但添加一些更复杂的东西,很快就会变得困难。

在同一张图片中将所有三个问题结合在一起会变得更加困难。添加一些线条和框,灰度阴影,半色调,旋转字体,淡入淡出和其他特殊效果,OCR几乎变得不可能。许多OCR引擎在具有明确定义文本的简单页面上100%准确,但是当您开始为文档添加更多复杂性时,读取速率开始迅速下降。有些OCR引擎比其他引擎要好得多。

答案 1 :(得分:-1)

如果您想要一个免费的库来执行此操作,请使用tesseract。它会返回边界框和其他一些特征以及OCR文本。

至于字体,我不确定你是否可以在tesseract中访问有关它的信息,但如果没有,一旦你有文字和图片,很容易找到与现有字体最接近的匹配。