Question

我正在尝试将数千个PDF文件转换为HTML。我可以使用以下代码将此PDF文件转换为HTML文件：

def convertPDFToHtml():
    command = 'pdf2txt.py -o output.html -t html test.pdf'
    os.system(command)

我希望能够解析HTML文件，以便可以从中提取不同的文本。现在的问题是，输出HTML文件缺少原始文件中的许多文本。

是否可以更好地转换PDF文件并解析HTML文本？

Answer 1

除非您特别想生成HTML文件，否则这可能是与here讨论的类似问题。但是，即使这样，您也可以首先从PDF中提取文本作为简单的无格式文本，对其进行解析，然后生成HTML。