Question

我使用tesseract引擎来OCR我的图像，如下所示。 image1 to OCR image2 to OCR

我使用了eng lang，并为引擎配置了一个白色的字符列表：＆＃34; 0123456789abcdefghijklmnopqrstuvwxyz＆＃34;

pOCREngine->SetVariable("tessedit_char_whitelist", "0123456789abcdefghijklmnopqrstuvwxyz");

准确性不好，大约10％左右。我试图用大约200个这样的图像训练引擎，并将训练好的数据与eng + mytrainedfont结合起来。准确性没有提高。

有没有人有任何想法改善此类图像的OCR？谢谢你提前。

Answer 1

您提供的图像很难在我尝试时获得100％的准确度。要改进tesseract ocr，您需要应用一些图像处理方法。我在两者上都使用了高斯滤波器，之后使用了最大滤波器来降低噪声。之后，我将图像设为二进制。

我在c ++中使用tesseract ocr，我正在使用OpenCV库进行图像处理。我测试了以下图像，结果如下：

image1 结果： yfsxf

image2 结果： 26ww（

希望这可以让您了解如何改善tesseract结果。不幸的是，您提供的图像有点难以阅读tesseract。