从文本图像生成字体

时间:2010-11-20 09:59:04

标签: image-processing fonts ocr

  

是否可以生成特定的   从下面给出的图像的字体集   ?

     

我的想法是生成一个特定的字体   对于下面给出的文本图像,通过   手动选择部分   图像并将其映射到一组   letter's.Generate这个字体   然后使用此字体来制作它   可读的OCR.Is代   可以使用任何开源的字体   实施?还请建议   任何好的OCR。

alt text

1 个答案:

答案 0 :(得分:1)

Abbyy FineReader 10获得了比预期更好的结果,但是当角色碰到时,可以预见会感到困惑。

您的问题是行间距太小。每行的下划线与正下方行中字符的字符边界框重叠。这使得字符分割几乎不可能,因为字符是触摸和重叠的。实际上不可能训练重叠字符组合的数量。 'g'和'y'字符是最严重的罪犯。

双线间距版本可能是OCR相当不错。

一个自定义的解决方案,将每一行和一个好的字典分开并分开,肯定会改善结果。虽然手动纠正仍然会有一些错误。自定义例程必须处理上升程序和下行程序,并尝试将图像分割成行,然后可以将其提供给体面的OCR引擎。一种方法是分析页面上的每个字符blob并将其分配给一行。 Leptonica(www.leptonica.com - C Imaging Library)可能会让这项工作变得更容易。

如果不首先将分辨率提高到200或300 dpi,我不会尝试这样做。

使用这种自定义解决方案,如果OCR引擎最初做得不好,那么训练字体就成了一种选择。

Abbyy(www.abbyy.com)或Google Tesseract OCR 3.00将是一个很好的起点。

不保证所有这些是否都有效。对于OCR而言,这是一个非常困难的页面,您需要弄清楚是否最好在海外手动输入。这取决于需要处理的页数。