如何编辑可搜索PDF的搜索文本?

时间:2015-10-02 19:37:30

标签: pdf acrobat

我可以访问我的图书馆的扫描仪,可以创建“可搜索的PDF”。这些是显示扫描文档的确切图像的PDF,但是当您尝试选择包含文本的图像的一部分时,PDF中可以选择一种隐藏文本。通过这种方式,您可以复制和粘贴文本或在扫描的文档中搜索文本。这非常有用。这是对原始扫描图像的一个很棒的改进。我的Mac上还有几个应用程序,可以从扫描的文档或原始图像创建这种可搜索的PDF。

现在很明显,任何使用过OCR的人都认为将图像转换为文本的过程不是100%准确,因此在某些地方搜索或复制的文本不正确。

因此,我搜索了一段时间,找到一个可以加载可搜索PDF的应用程序,并允许我修复隐藏的可搜索文本,而无需重新格式化或修改原始扫描图像。

有没有人知道允许这样做的工具(或库API)?

值得一提的是,我尝试了最新版本的Adobe Acrobat DC for Mac,它似乎甚至不允许我查看隐藏的可搜索文本,更不用说编辑它了。它允许我用自己的OCR过程的结果替换扫描图像,以便我可以编辑和保存文档。但是这会对我正在使用的任何扫描文档产生可怕的结果。它似乎是为编辑“本机PDF”而不是编辑扫描文档而设计的。

我也尝试过没有运气的ABBYY FineReader。

2 个答案:

答案 0 :(得分:0)

我正在使用ABBYY FineReader 12 Professional。 (不是开源) 只需打开扫描图像或扫描pdf并按验证文本(或Ctrl + F7),就可以查看所有拼写错误或低可信度字符并修复它们。

该程序非常好,它为您提供了图像/ pdf中的确切位置以及方便的OCR猜测。它迭代了所有这些。

[顺便说一句,我正在使用快捷方式来加快速度: Alt+Enter将无法识别的单词添加到词典中。 Ctrl+Delete如果你修了它,可以跳过单词或确认。]

将文档另存为pdf文件菜单:文件>将文档另存为> PDF文件,您可以在每个PDF阅读器上搜索它。保存的文件看起来与扫描的文件相同,但在文本后面“文本”。

你尝试过没有运气的ABBYY很奇怪......它对我很有用。也许你没试过专业版。

希望它对你有所帮助。

答案 1 :(得分:0)

这不是从海报后的图像中创建可搜索的pdf,他想以一个已经可搜索的pdf开头并修改其文本(例如,因为最初创建了可搜索的pdf,但后来发现了识别中的一个被忽略的错误并需要更正)。我看不到任何方法,也没有工具可以帮助完成此任务。

相关问题