是否有一个窗口程序可以将单词(.doc和.docx)转换为文本

时间:2010-03-01 07:44:51

标签: php ms-word

我需要一个窗口程序将word文件(.doc)转换为文本。像Windows的“anitiword”之类的东西。

我需要它,因为我需要将word文件转换为文本并使用Lucence对其进行索引并且我在Windows环境中:(

感谢您的帮助!!!

4 个答案:

答案 0 :(得分:1)

是。该程序称为MS Word。

通过COM在Word中打开文件,并以编程方式将其另存为文本。另一方面,Lucene本身无法读取Word文档吗?

答案 1 :(得分:0)

如果你真的需要一个程序,这里是one。没试过,但你可以试一试。否则,你可以use COM / vbscript

答案 2 :(得分:0)

使用POI(http://poi.apache.org/)您应该能够索引旧的二进制DOC格式。相关的代码段可以在http://kalanir.blogspot.com/2008/08/how-to-index-microsoft-format-documents.html找到。

对于DOCX,因为它基本上是一个包含一堆XML和资源文件的ZIP文件,所以找到包含实际文本的XML文件(我认为是word / document.xml)并索引它应该相对容易。包含在其中的文本(在剥离所有XML数据之后)......

答案 3 :(得分:0)

您可以使用OpenXML SDK轻松地从DOCX文件中删除文本。但不适用于.doc - 您可能需要使用MS Word和COM。