用于DOC,DOCX和PDF的python转换器库

时间:2011-07-28 10:14:22

标签: python

  

可能重复:
  solution to convert PDFs, DOCs, DOCXs into a textual format with python

我正在制作一个文档搜索引擎,它可以对流行的二进制格式进我正在为此目的寻找python库。

可靠的转换器证明太难找到。 PyPDF永远不会准确。请推荐:

  • 将这些格式转换为文本的python库
  • 或可以作为子流程调用的跨平台独立程序

2 个答案:

答案 0 :(得分:1)

答案 1 :(得分:1)

您可以尝试使用Open Office。

它的转换技能高于平均水平。要编辑PDF文档,您需要安装pdf import extension

有一些扩展可以使用python,例如python-uno bridge,但我遇到了困难,并且通常会将开放式办公室称为子进程。

刚刚注意到您在以下位置打开了重复的问题: solution to convert PDFs, DOCs, DOCXs into a textual format with python ...