使用Apache OpenOffice将PDF转换为ODT / DOC

时间:2019-11-06 12:25:46

标签: ironpython openoffice-writer

我正在使用IronPython + PyFPDF生成具有图像,表格和文本的PDF格式的报告。好吧,因为PDF从来都不是要成为可编辑/浮动的文档,所以我想知道是否有一种方法可以将它转换为ODT / Doc之类的任何可编辑文档,以保持文档格式尽可能完整。

我探索了几种方法和可能的方法

  • PDF-> HTML-> Word(使用pdftohtmlEx和pandas从html获取文档,但是pdftohtmlEx似乎不保留文档格式)
  • 使用MS Word或Apache Open Office(取决于服务器,考虑到存在应用程序编写器)进行转换,因为它们具有从GUI执行此操作的功能,因此必须有某种方法可以从命令行进行操作,然后使用python子进程中的命令行以编程方式完成

我无法探索任何第三方库/软件包,唯一的问题/限制是IronPython不支持包含大量C代码的软件包,例如docx-mailmerge,python-docx,numpy,pandas

总而言之,我认为最好的选择是使用Word或Apache Open Office编写器来完成工作,但是我不确定如何通过命令行来实现它

有人能指出我正确的方向吗?

0 个答案:

没有答案
相关问题