如何从表格PDF中提取粗体文本?

时间:2019-07-16 12:20:24

标签: python pdf text docx bold

我正在尝试从表格PDF中提取粗体文本。我已经设法使用“ python-docx”库从PDF中提取粗体文本。现在,我正在努力从PDF中提取粗体文本。

首先,我使用Word将我的PDF文件转换为docx文件。我手动将其打开,然后将其保存为.docx格式。 (我需要对其进行自动化,以便您有任何想法。我想我将创建一个bat文件)

无论如何,我正在docx表格文件中执行以下代码:

import docx

def extract_bolds(file_path):
    document = docx.Document(file_path)
    for table in document.tables:
        for row in table.rows:
            for cell in row.cells:
                for para in cell.paragraphs:
                    for run in para.runs:
                        if run.bold :
                            print(run.text)
extract_bolds('my_docx_file_path.docx')

这有点工作,但是结果有重复。

例如,预期结果可能是: 'Foo' “酒吧”

但是我有: 'Foo' 'Foo' 'Foo' 'Foo' '酒吧' '酒吧' '酒吧' “酒吧”

谢谢

0 个答案:

没有答案
相关问题