image-processing - OCR处理前的图像预处理

OCR处理前的图像预处理

时间：2013-03-21 21:30:00

标签： image-processing ocr tesseract

我目前的项目涉及将pdf中的文本转录成文本文件，我首先尝试将图像文件直接放入OCR程序（tesseract），但它并没有。做得好原始图像文件基本上都是旧的新闻报道，并且有一些背景噪音，我相信这些报道有问题。因此，我尝试使用一些图像预处理，然后将其输入tesseract。是否有任何建议适合这种情况的开源图像预处理引擎???关于如何使用它的说明将更加受到赞赏！

3 个答案:

答案 0 :(得分：4)

我没有听说过“图像预处理引擎”，但您可以查看OpenCV（开源计算机视觉库）并实现自己的“预处理引擎“。 OpenCV 是一个计算机视觉库，提供许多功能来执行图像处理。

您可能需要测试的一个有趣的事情是预处理步骤，将阈值应用于图像以消除噪音和内容。无论如何，我在this thread 中谈过这类内容。

答案 1 :(得分：3)

与@karlphillip一样，我非常怀疑有一个现成的预处理引擎可供您使用，因为预处理技术与预期结果有很大差异。

清除嘈杂图像中文本的一些常用方法包括： 1.自适应阈值处理（Sauvola或Niblack二值化） 2.应用尺寸略大于文本的中值滤镜以获得背景图像，然后从原始图像中减去背景（以去除较大的噪点，如折痕，污点，手写笔记等）。

OpenCV具有这些过滤器/二值化方法的实现。如果您可以访问已发表的文献，那么在嘈杂文档的二值化方面有相当多的工作。

答案 2 :(得分：0)

结帐ScanTailor。它具有非常令人印象深刻的预处理功能，它是开源的。