将PDF文件转换为HTML的最佳方法

时间:2019-09-15 22:05:21

标签: python html pdf

我正在尝试将数千个PDF文件转换为HTML。我可以使用以下代码将此PDF文件转换为HTML文件:

def convertPDFToHtml():
    command = 'pdf2txt.py -o output.html -t html test.pdf'
    os.system(command)

我希望能够解析HTML文件,以便可以从中提取不同的文本。现在的问题是,输出HTML文件缺少原始文件中的许多文本。

是否可以更好地转换PDF文件并解析HTML文本?

1 个答案:

答案 0 :(得分:0)

除非您特别想生成HTML文件,否则这可能是与here讨论的类似问题。但是,即使这样,您也可以首先从PDF中提取文本作为简单的无格式文本,对其进行解析,然后生成HTML。

相关问题