如何在我的图像上提高tesseract引擎的准确性?

时间:2016-03-14 07:58:33

标签: ocr tesseract

我使用tesseract引擎来OCR我的图像,如下所示。 image1 to OCR image2 to OCR

我使用了eng lang,并为引擎配置了一个白色的字符列表:" 0123456789abcdefghijklmnopqrstuvwxyz"

pOCREngine->SetVariable("tessedit_char_whitelist", "0123456789abcdefghijklmnopqrstuvwxyz");

准确性不好,大约10%左右。我试图用大约200个这样的图像训练引擎,并将训练好的数据与eng + mytrainedfont结合起来。准确性没有提高。

有没有人有任何想法改善此类图像的OCR?谢谢你提前。

1 个答案:

答案 0 :(得分:0)

您提供的图像很难在我尝试时获得100%的准确度。要改进tesseract ocr,您需要应用一些图像处理方法。 我在两者上都使用了高斯滤波器,之后使用了最大滤波器来降低噪声。之后,我将图像设为二进制。

我在c ++中使用tesseract ocr,我正在使用OpenCV库进行图像处理。我测试了以下图像,结果如下:

image1 结果: yfsxf

image2 结果: 26ww(

希望这可以让您了解如何改善tesseract结果。不幸的是,您提供的图像有点难以阅读tesseract。