提高低质量扫描图像的OCR质量

时间:2018-03-01 10:58:50

标签: opencv image-processing imagemagick ocr leptonica

自动校正和裁剪后,我有以下图像:

enter image description here

我需要OCR这张图片。现在ABBYY Engine SDK 11 For Linux产生的效果不是很好:

IMerasers - www,raiyirnieti'^C9,co;i,ni                                                          
Clariiis: Jv ocl'ca :PO 9ox 30998, S&M Luke C6y, UT 84":30                                       
Guslomei: Service:                                 952-945-800G or 800-952-3^55                  
Jieaf5ftg: impaired;                               VA                                            
Pharmaaisto:                                       853-364-6331                                  
Medica Pfovic.&s:                                  80 ;j-2i5S-55"',2 o ■ www.rfledica.cori       
^ofricai'or Services:                              86i-7<5-9920                                  
t1 ^edHoaiihca'Q Provicors; 6 77-842420 or                                                       
                                               ; mffiffiF********                               
Sviet iea Be tsvio a rieofift:                                                                  
Mocica Ca-linK frwso ,'ne: 430-962-9*9?    

为了提高OCR质量,可以对此图像应用哪些自动图像预处理技术?或者无法提高此图像的OCR质量?现在我使用OpenCV和Leptonica库来预处理图像。

已更新

这是原始图片:

enter image description here

2 个答案:

答案 0 :(得分:2)

图像已经以相对较低的分辨率和噪声进行二值化。

您可以通过

略微改进它
  • 分辨率增加一倍或三倍(使用或不使用双线性插值,这几乎没有差别);

  • 平滑(小高斯滤波器,中位数......);

  • 再次进行二值化。

但你几乎无法恢复,伤害已经完成。最有可能的是,预处理会使结果恶化。

enter image description here

答案 1 :(得分:0)

正如Yves所说,图像的质量非常低。不过,您应该能够改善您的结果:

  • 尝试调整图片大小。一些OCR期望特定尺寸的字母
  • 尝试使用其他OCR,例如tesseract
  • 如果您必须阅读许多具有相同字体的文档,则可以使用该字体训练OCR