pdf - PDF：如何覆盖/修复扫描图像+ OCR文件中的可搜索文本？

我正在尝试在PDF文件上创建一个索引，我将其作为旧原始手稿中的图像进行扫描，然后在Adobe Acrobat Pro中进行字符识别。问题是有些词语间隔很滑，所以OCR最终会出现漏洞。我使用查找和修复嫌疑人工具，但仍然存在问题。

例证......

文本“ FOR EXAMPLE ”在原始文档（当然是其图像）中间隔得很有趣，因此Adobe将其读作三个单词“ FOR EX AMPLE ”然后导致单词“ ample ”的索引条目，如果我不知道更好，它看起来完全有效。这是我到目前为止所识别的文档中的几个类似问题之一（还有更多要校对的页面）。

如何修复底层OCR文本，使其在搜索文档时在创建的索引和中包含正确的信息。

PS：我不能只是切换到文档的纯OCR文本版本，因为稿件是技术性的，并且有大量与文本相关的图纸。我需要保留图像并更改下面的“隐藏”可搜索文本。

PDF：如何覆盖/修复扫描图像+ OCR文件中的可搜索文本？

1 个答案: