以编程方式在Word文档中查找引用图片的名称

时间:2015-07-14 16:48:07

标签: macos ms-office

在撰写论文时,我已经以某种方式重命名了一个参考图片文件,这使得Word告诉我它无法显示参考图片。但我早就忘记了图片显示的内容......那么如何才能找到参考图片文件的名称?

我在Mac上运行Office 2011,它是一个docx文件(OpenXML)。

1 个答案:

答案 0 :(得分:0)

我不知道VBA,但在记住docx只是一个压缩的xml文件之后,我想出了以下Python解决方案来列出所有引用的图片:

import sys,xml.dom.minidom; 
from zipfile import ZipFile;

z=ZipFile(sys.argv[1]); 
f=z.open("word/document.xml"); 
doc = xml.dom.minidom.parse(f); 
for e in doc.getElementsByTagName("pic:cNvPr")];
    print e.attributes["name"].value 

如果将其保存为word-pictures,您可以在文档上调用它:

$ word-pictures ../thesis.docx
aurora_screen_reference.png
Grid2aib.jpg
__media-query-css3.tiff
__dom_html.tiff
aurora_screen_reference.png
interaksjonsskisse_science_full_rwd_breaking.png.tiff
motivasjonsprisme.png
EvacPrepbackgrndUK1-forside.tiff
SatTrackingMapA3__bilde.tiff
Volcgraph-forside.tiff

您可以使用另一种快速解决方案来查找字符串前面的特定图片:

 unzip -p ../thesis.docx word/document.xml \
 | xmllint --format /dev/stdin \
 | grep -B100 'some string immediately after a picture' \
 | grep --color  'pic:cNvPr'

在我的案例中打印了<pic:cNvPr id="1" name="aurora_screen_reference.png"/>