如何在将扫描文档传递给tesserract进行OCR之前从扫描文档中删除图形?

时间:2013-10-23 03:20:34

标签: ocr tesseract

我正在处理OCR项目,但我不知道如何在将扫描文档图像传递给tesserract之前从其中删除图形。 我想删除图形的一些扫描文档如下:

http://www.mediafire.com/view/hvmpty2z3cw3vao/IMG_0087.JPG

http://www.mediafire.com/view/1sgy5s2aaj2o8y3/IMG_0086.JPG

任何建议都非常感谢。非常感谢。

2 个答案:

答案 0 :(得分:1)

由于文本区域通常是稀疏的并且彼此不连接,因此您可以考虑对原始图像进行sobel边缘检测,并检测具有某个阈值的最大连接区域以检测图像区域。

同时,由于图像是矩形区域,另一种方法是使用霍夫平移来检测直线以构成具有4条线的矩形。如果你这样做,建议你先缩放图像以降低计算复杂度。

答案 1 :(得分:1)

您可以先使用AForge.Net中提供的算法检测文本区域。请参阅HorizontalRunLengthSmoothingVerticalRunLengthSmoothing。算法不是很复杂,您可以使用自己喜欢的图像处理库轻松实现它。唯一的限制是大致了解图像中字符的大小。