扫描图像/ PDF到可搜索图像/ PDF

时间:2014-07-20 08:43:06

标签: pdf-generation ocr

有人可以建议我如何将扫描图像转换为可搜索的图像或扫描的PDF格式转换为可搜索的PDF格式吗? 现在已经有一段时间了,我一直陷入这种境地 我在ubuntu中尝试过pdfocr应用程序,但没有成功。

2 个答案:

答案 0 :(得分:4)

Tesseract 3.03版支持从图像创建可搜索的PDF。对于PDF,您可以使用GhostScript将其转换为图像,然后再将其发送到Tesseract。

https://github.com/tesseract-ocr/tesseract

答案 1 :(得分:0)

目前,在Ubuntu上没有正确的方法。所有OCR引擎都输出纯文本,并且无法将该文本作为PDF上的隐藏图层添加到图像文本上。

选项1:使用 gscan2pdf 这将使您获得可搜索的PDF,但OCRed文本位于页面的左上角,不可见且太小。

选项2:使用具有OCR选项的PDF X-Change Viewer,并通过在扫描图像上添加与其一致的文本图层来正常工作。你必须在 wine 中运行它,因为它是一个Windows应用程序。