OCR处理前的图像预处理

时间:2013-03-21 21:30:00

标签: image-processing ocr tesseract

我目前的项目涉及将pdf中的文本转录成文本文件,我首先尝试将图像文件直接放入OCR程序(tesseract),但它并没有。做得好 原始图像文件基本上都是旧的新闻报道,并且有一些背景噪音,我相信这些报道有问题。因此,我尝试使用一些图像预处理,然后将其输入tesseract。是否有任何建议适合这种情况的开源图像预处理引擎???关于如何使用它的说明将更加受到赞赏!

3 个答案:

答案 0 :(得分:4)

我没有听说过“图像预处理引擎”,但您可以查看OpenCV(开源计算机视觉库)并实现自己的“预处理引擎“。 OpenCV 是一个计算机视觉库,提供许多功能来执行图像处理。

您可能需要测试的一个有趣的事情是预处理步骤,将阈值应用于图像以消除噪音和内容。无论如何,我在this thread 中谈过这类内容。

答案 1 :(得分:3)

与@karlphillip一样,我非常怀疑有一个现成的预处理引擎可供您使用,因为预处理技术与预期结果有很大差异。

清除嘈杂图像中文本的一些常用方法包括: 1.自适应阈值处理(Sauvola或Niblack二值化) 2.应用尺寸略大于文本的中值滤镜以获得背景图像,然后从原始图像中减去背景(以去除较大的噪点,如折痕,污点,手写笔记等)。

OpenCV具有这些过滤器/二值化方法的实现。如果您可以访问已发表的文献,那么在嘈杂文档的二值化方面有相当多的工作。

答案 2 :(得分:0)

结帐ScanTailor。它具有非常令人印象深刻的预处理功能,它是开源的。

相关问题