将PDF转换为docx

时间:2019-06-12 10:17:52

标签: python api pdf docx file-conversion

我们如何使用/不使用python将PDF转换为docx。其实我想自动转换大量文件,所以我需要一个API。

我曾经使用过以下在线网站: https://pdf2docx.com/

https://online2pdf.com/pdf2docx

https://www.zamzar.com/convert/pdf-to-docx/

我无法直接访问那里的api

5 个答案:

答案 0 :(得分:1)

pdf2docx

  1. 安装 pdf2docx 包点击 here

安装

  • 克隆或下载 pdf2docx

     pip install pdf2docx
         or
     # download the package and install your environment
     python setup.py install 
    
  • 选项 1

    from pdf2docx import Converter
    
    pdf_file  = r'C:\Users\ABCD\Desktop\XYZ/Document1.pdf'# source file 
    docx_file = r'C:\Users\ABCD\Desktop\XYZ/sample.docx'  # destination file
    
    # convert pdf to docx
    cv = Converter(pdf_file)
    cv.convert(docx_file, start=0, end=None)
    cv.close()
    
    #Output
    
    Parsing Page 53: 53/53...
    Creating Page 53: 53/53...
    --------------------------------------------------
    Terminated in 6.258919400000195s.
    
  • 选项 2

    from pdf2docx import parse
    
    pdf_file  = r'C:\Users\ABCD\Desktop\XYZ/Document2.pdf' # source file
    docx_file = r'C:\Users\ABCD\Desktop\XYZ/sample_2.docx' # destination file
    
    # convert pdf to docx
    parse(pdf_file, docx_file, start=0, end=None)
    
    # output
    Parsing Page 53: 53/53...
    Creating Page 53: 53/53...
    --------------------------------------------------
    Terminated in 5.883666100000482s.
    

答案 1 :(得分:0)

您可以尝试pdftohtml,然后使用Pandoc将HTML转换为docx。

实际上,PDF并不是真正的文档格式,而是页面布局格式,因此转换可能会出现问题。

答案 2 :(得分:0)

将PDF转换为文档可能是个有问题的任务,反之则很容易。

一种可能的解决方案是将PDF文件另存为所需位置的扩展名为“ .docx”。如果从docx中保存了PDF,反之亦然。

答案 3 :(得分:0)

我是Zamzar的CTO,我们有一个API可以在https://developers.zamzar.com/上使用此功能

我们拥有a Test account,您可以免费试用该服务,并在our docs中使用Python的代码示例,这使您可以非常简单地将PDF文件转换为DOCX:

import requests
from requests.auth import HTTPBasicAuth

api_key = 'YOUR_API_KEY'
endpoint = "https://sandbox.zamzar.com/v1/jobs"
source_file = "/tmp/my.pdf"
target_format = "docx"

file_content = {'source_file': open(source_file, 'rb')}
data_content = {'target_format': target_format}
res = requests.post(endpoint, data=data_content, files=file_content, auth=HTTPBasicAuth(api_key, ''))
print res.json()

然后您可以poll the job查看它在downloading your converted file之前何时完成。

答案 4 :(得分:0)

尝试PDF.to,它有一个PDF API,其中包含Curl,PHP,Python和NodeJS示例,并且有不错的documentation