如何获得小字体的准确结果

时间:2014-09-29 14:56:52

标签: ocr tesseract tess4j

我正在尝试使用Tesseract 3.02从应用程序中读取文本以进行验证(自动化测试)。如果字体很小(8到10),它总是给我不正确的结果。在将图像传递给tesseract之前,我按照下面提到的图像处理。 1.将图像转换为GrayScale。 (图像格式JPG) 2.重新缩放图像 3.将图像转换为300 DPI

预处理图像后,将其传递给tesseract。我拥有的大多数应用程序图像都具有较小的字体大小。此外,我确保训练数据中的字体类型可用,但准确率仍然很低。

如果我遗失某些东西,任何人都可以指导我。

1 个答案:

答案 0 :(得分:0)

我有同样的问题,阅读8磅。图像中的文字。即使在尝试使用GrayScale之后,重新缩放到400%也只是略微有所帮助。 Tesseract OCR在小字体文本方面不是很好。我的同事建议我在https://cloud.google.com/vision/尝试Google Cloud Vision。 Tesseract-OCR的准确率约为50%,但Google Vision的准确率为100%。它有https://cloud.google.com/sdk/docs/#windows的Windows SDK,还有示例.NET Cloud Vision项目。我已经尝试了样本项目,它可以很好地处理我的图像中的文本,这非常令人印象深刻,考虑到Tesseract-OCR只有大约50%的准确度。唯一的缺点是它是一种付费的基于云的服务,但你至少可以免费试用它。