java - 为什么tesseract失败了这张图片？

时间：2012-12-05 07:53:47

标签： java image-processing ocr tesseract

enter image description here

我在这张图片上尝试了tesseract，并在矩形内部扫描了一些文字。但它每次都以一些垃圾文本作为输出失败。并纠正文本周围没有框。请告诉我如何处理图像或tesseract？请帮忙

答案 0 :(得分：0)

Tesseract在分类之前将图像转换为灰度，因此粉红色的线条可能会被拾取为文本。

仅从图像中提取黑色像素，你应该没问题。您可以使用ImageMagick。

答案 1 :(得分：0)

如前所述，在进行OCR之前你应该摆脱粉红色的线条（它们仍然有用作为角色边界虽然）

一旦你发现你的gliph并将它们二进制化（转换为位图），你就可以开始了使用tesseract就可以了。请记住，tesseract使用形状提取方法并依赖于字典支持 - 您可能会获得更好的结果（以及更快的处理时间）以及像Hu这样的不变时刻

如果您对java基本方法感兴趣，这里是我们的OCR库在纯java中执行此操作（可以移植到其他语言）：