从docx表中提取URL

时间:2018-11-12 20:04:06

标签: python xml hyperlink docx

我现在很困。

我使用python-docx库在python-3中编写了一个解析器,以提取在现有.docx中找到的所有表并将其存储在python数据结构中。

到目前为止,一切都很好。正常工作。现在,我有一个问题,这些表中确实有我需要的超链接!由于结构(位于其下的xml),docx库无法捕获这些内容。网址和显示文字均未提供。我发现许多人对此有类似的担忧,但大多数人似乎并没有“正好那样”的困境。

我考虑过打开.docx的文件并在_ref文档中扫描相应的“ rid”,并使用_ref xml中的链接填充我的实际数据。

无论哪种方式都似乎很疲倦,所以我想知道是否还有更Python化的方式来做到这一点,或者是否有人很好地建议了如何解决这个问题?

1 个答案:

答案 0 :(得分:0)

您可以通过解析docx文件的xml来提取链接。 您可以使用document.element.getiterator()

从文档中提取所有文本

遍历xml的所有标签并提取其文本。您将获得python-docx无法提取的所有缺失数据。