Pdf在线处理和操作

时间:2015-04-20 10:11:48

标签: php pdf pdf-generation pdfbox pdf-parsing

我想在线显示pdf文件,并在pdf中点击文字时提供翻译。 Pdf来自用户,并没有任何标记。如果翻译的pdf可用,我希望在点击原始pdf中的句子/单词时显示翻译的片段pdf。如果翻译不在pdf文件中,我会将其显示为文本叠加层。我有哪些可能性?
我可以想象以下解决方案:

  1. 不修改原始pdf,点击句子时会出现叠加层。可能不适用于Adobe Pdf Reader,是否有可用的服务器端读卡器,我可以在哪里进行此类操作(处理点击,获取点击文本,sdd叠加)?
  2. 将pdf转换为html - 我可以在服务器端使用哪个转换器? (PHP首选)
  3. 为浏览器创建自定义pdf阅读器 - 太复杂了
  4. ...
  5. 有什么建议吗?

1 个答案:

答案 0 :(得分:1)

我会考虑以下情况:

  1. 使用PDF.js在浏览器中显示PDF(效果非常好,例如,DropBox已经使用它来显示PDF预览)。并调整其Viewer HTML和javascript代码以处理文本选择(请参阅此example)。缺点:它可能无法在移动设备上正常工作。
  2. 使用服务器端代码的成熟pdf到html转换器(商业或非商业)之一将PDF转换为HTML表示。然后就像使用HTML代码一样使用它。
  3. 使用服务器端代码将PDF转换为图像(每页单个图像)。然后解析PDF以查找每个文本对象的位置并生成HTML代码以使用渲染图像,最后生成HTML代码,其中渲染图像位于底层,顶层包含由javascript代码处理以显示翻译等的文本元素