如何将文本从MS Word文档解析为字符串

时间:2013-07-16 12:36:13

标签: c# parsing text ms-word

我正在尝试找到一种方法将word文档的文本解析为我项目中的字符串。我有超过600个单词(.doc)文件,我需要获取文本内容(如果有新行和标签,可能)并将其分配给每个字符串。

我一直在阅读有关Open XML SDK的内容,但看起来很简单,看起来很复杂。

2 个答案:

答案 0 :(得分:4)

Open XML SDK仅适用于2007及更新的格式,使用起来并不容易。

如果性能不是问题,您可以使用Word Automation并让Word为您执行此操作。 它看起来像这样:

var app = new Application();
var doc = app.Documents.Open(documentLocation);

string rangeText = doc.Range().Text;

doc.Save();
doc.Close();

Marshal.ReleaseComObject(doc);    
Marshal.ReleaseComObject(app);

请查看http://www.codeproject.com/Articles/18703/Word-2007-Automationhttp://www.codeproject.com/Articles/21247/Word-Automation以获取更完整的示例和说明。请注意,如果您的文档移动复杂(脚注,文本框,表格......),这可能会变得有点棘手。

另一个选项是将文档保存为文本,然后读取文本文件。看看这个 - http://msdn.microsoft.com/en-us/library/microsoft.office.tools.word.document.saveas(v=vs.80).aspx

答案 1 :(得分:0)

您可以查看NPOI

  

这个项目是POI Java项目的.NET版本   http://poi.apache.org/。 POI是一个开源项目,可以提供帮助   你读/写xls,doc,ppt文件。它有广泛的应用。

请查看this之前的SO帖子以获取更多信息。

相关问题