GCP OCR服务 - 将扫描的PDF或图像转换为可搜索的PDF

时间:2018-01-24 23:35:10

标签: google-cloud-platform ocr

可以使用OCR将扫描的PDF转换为新的可搜索PDF文件 来自Google Cloud Platform的服务?

2 个答案:

答案 0 :(得分:1)

源文件为图像PDF且输出为可搜索PDF的此功能不会直接与Google Vision API一起提供。您可以在Issue Tracker提交有关该功能的功能请求。但是,Vision API OCR可以返回扫描文档中检测到的单词的实际位置(图像格式),如example。为了使图片上的文字可以搜索,您可以尝试使用每个单词“boundingPoly”。最简单的解决方案是创建一个包含单词及其boundingPoly位置的表格,并将其映射到文档图像。

请注意,如果原始扫描文档为PDF格式,则必须先将其转换为支持的图像文件,然后才能使用Vision API。您可能还必须使用第三方解决方案将生成的文件转换回PDF。

此外,如果您想从图像中提取文本并将其转换为PDF而不提取图表,图片,表格等,您可以查看tutorial

答案 1 :(得分:-1)

可以使用 OCR 服务将扫描的 PDF 转换为新的可搜索 PDF 文件,您可以查找 LeadTools 和 Amazon Textract 服务