通过命令行将doc转换为文本

时间:2011-06-28 16:59:05

标签: linux ms-word doc

我们正在搜索允许我们将doc或docx文档转换为txt文件的程序。我们正在使用linux,我们希望启动一个转换用户上传的doc文件的网站。我们不想使用开放式办公室/自由办公室因为我们有不好的经验。 Pandoc无法处理doc文件:/

有人有想法吗?

3 个答案:

答案 0 :(得分:6)

您必须使用两种不同的命令行工具,具体取决于您使用的是.doc还是.docx格式。

对于.doc使用catdoc:

catdoc foo.doc > foo.txt

对于.docx,请使用docx2txt:

docx2txt foo.docx

后者将在与原始目录相同的目录中生成一个名为foo.txt的文件。

我不确定您使用的是哪个Linux发行版,但是catdoc和docx2txt都可以从Ubuntu存储库中获得,例如:

apt-get install docx2txt

或者使用Mac上的Homebrew:

brew install docx2txt

答案 1 :(得分:1)

这里有perl project声称可以做到这一点。我已经在document.xml上使用XSLT手动完成了很多这方面的工作。 Docx文件本身只是一个zip文件,你可以解压缩并检查元素。我会说这对于特定文件并不难做,但在一般情况下很难做到,因为缺少Word内部存储内容的文档以及内部表示的方差。

答案 2 :(得分:0)

对于doc文件,您可以使用反词,它在Homebrew和Ubuntu上可用。