将扫描的pdf文件转换为可搜索文本的pdf文件

时间:2017-07-08 22:38:26

标签: php pdf ocr

我想将扫描的pdf文件转换为可搜索文本的pdf文件。 我想将输入作为扫描PDF,然后我的预期输出是可搜索的PDF。

很少有工具可以将文本作为扫描pdf文件的输出,但我希望文本可搜索的pdf文件作为输出,而不仅仅是文本。

我搜索了它并找到了1个解决方案here,但我的生产服务器是亚马逊的centos,这个工具的安装仅适用于ubuntu,而不适用于亚马逊中心。

如果需要,我准备支付费用。请帮助我提供任何开源web api或付费web api服务的链接或任何可以转换为文本可搜索pdf文件的工具。

我在网络应用程序中使用PHP语言。

2 个答案:

答案 0 :(得分:0)

有几种商业网络API服务可以将扫描的PDF(或扫描图像)转换为可搜索的PDF。其中,我建议尝试ABBYY's Cloud OCR SDK。他们已经在OCR领域工作了几十年并且使用他们自己的OCR引擎,根据我的观察以及我从其他人那里听到的内容,这些引擎往往比基于其他技术的API(例如Tesseract)提供更好的OCR结果。

答案 1 :(得分:0)

OCR.space OCR API可用于创建searchable PDF

在我的测试中,我发现它比任何基于Tesseract的解决方案都要好。 Abbyy OCR SDK仍然更好 - 但也更昂贵。

您可以在https://ocr.space测试此API的OCR转换质量 并看看是否适合你。