如何从docx文档中检索所有脚注?

时间:2014-12-05 08:06:32

标签: python xml parsing ms-word docx

我有一份大约900页的大量docx文档,超过2000个脚注...我想创建一个所有脚注的列表(可能还有一些与它们相关的元信息,如字体大小,样式,编号) 。我知道一点python并且可以使用XML但不知道从哪里开始...

简而言之,您如何解析docx文档以提取脚注?我应该先用XML转换它吗?如果是,我如何解析XML文档?

1 个答案:

答案 0 :(得分:2)

如果你解压缩你的docx,你会发现它包含一个word/footnotes.xml文件,其中包含脚注。