ocr - 如何获得小字体的准确结果

如何获得小字体的准确结果

时间：2014-09-29 14:56:52

标签： ocr tesseract tess4j

我正在尝试使用Tesseract 3.02从应用程序中读取文本以进行验证（自动化测试）。如果字体很小（8到10），它总是给我不正确的结果。在将图像传递给tesseract之前，我按照下面提到的图像处理。 1.将图像转换为GrayScale。（图像格式JPG） 2.重新缩放图像 3.将图像转换为300 DPI

预处理图像后，将其传递给tesseract。我拥有的大多数应用程序图像都具有较小的字体大小。此外，我确保训练数据中的字体类型可用，但准确率仍然很低。

如果我遗失某些东西，任何人都可以指导我。

1 个答案:

答案 0 :(得分：0)

我有同样的问题，阅读8磅。图像中的文字。即使在尝试使用GrayScale之后，重新缩放到400％也只是略微有所帮助。 Tesseract OCR在小字体文本方面不是很好。我的同事建议我在https://cloud.google.com/vision/尝试Google Cloud Vision。 Tesseract-OCR的准确率约为50％，但Google Vision的准确率为100％。它有https://cloud.google.com/sdk/docs/#windows的Windows SDK，还有示例.NET Cloud Vision项目。我已经尝试了样本项目，它可以很好地处理我的图像中的文本，这非常令人印象深刻，考虑到Tesseract-OCR只有大约50％的准确度。唯一的缺点是它是一种付费的基于云的服务，但你至少可以免费试用它。