从docx和pptx中提取包含文本和文本的文本内容。图片 - linux

时间:2017-06-20 07:14:34

标签: python linux perl text-extraction

docx to txt:

我尝试使用以下代码从docx中提取文本。当docx有图像时,它不起作用。

unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

对于 pptx到txt ,我找到了一个提取txt的Perl脚本。当pptx有图像时它不起作用 - 相同。

我想要提取的txt内容,以便在文档中启用搜索选项。因此,跳过图像并将docx文本内容转换为txt的命令/脚本甚至会有所帮助!

1 个答案:

答案 0 :(得分:3)

您从(How to extract just plain text from .doc & .docx files? (unix))获取代码的SO问题提供了其他选项 libreoffice答案几乎可行,可能是在2012年 现在(Libreoffice 5.1)尝试:

libreoffice --convert-to txt text some.docx

libreoffice --headless --convert-to txt text some.docx

请确保您没有libreoffice已经打开。