为什么tesseract失败了这张图片?

时间:2012-12-05 07:53:47

标签: java image-processing ocr tesseract

enter image description here

我在这张图片上尝试了tesseract,并在矩形内部扫描了一些文字。但它每次都以一些垃圾文本作为输出失败。并纠正文本周围没有框。请告诉我如何处理图像或tesseract?请帮忙

2 个答案:

答案 0 :(得分:0)

Tesseract在分类之前将图像转换为灰度,因此粉红色的线条可能会被拾取为文本。

仅从图像中提取黑色像素,你应该没问题。您可以使用ImageMagick

答案 1 :(得分:0)

如前所述,在进行OCR之前你应该摆脱粉红色的线条(它们仍然有用 作为角色边界虽然)

一旦你发现你的gliph并将它们二进制化(转换为位图),你就可以开始了 使用tesseract就可以了。请记住,tesseract使用形状提取方法并依赖于字典支持 - 您可能会获得更好的结果(以及更快的处理时间)以及像Hu这样的不变时刻

如果您对java基本方法感​​兴趣,这里是我们的OCR库在纯java中执行此操作(可以移植到其他语言):

http://sourceforge.net/projects/javaocr/

相关问题