必须从word文件中提取数据

时间:2013-07-01 06:44:59

标签: c# asp.net ms-word

我有一个特殊的问题,我必须从word文件中提取信息。比方说,我有一份简历,需要提取nameemail addressphone no.addressuniversityExperience等。

其他每个人都可能以不同的格式提供简历。那么我有什么方法可以通过编程方式提取我需要的信息吗?

我需要这些信息来填写表格进行注册。

2 个答案:

答案 0 :(得分:1)

使用aspose .net将word文档转换为html 然后,您可以使用正则表达式搜索单词和/或pdf文档 或者,您可以使用HTMLAgilityPack来解析创建的HTML文档,并搜索特定的部分/路径。

PS:
如果您的电子邮件的正则表达式短于一页,则正则表达式不正确 只要您只支持一个国家,电话就应该是可管理的 至于姓名和地址,祝你好运。

修改
喜欢这个

VB.NET:

Dim doc As New Aspose.Words.Document("filename.docORdocx")
doc.Save("filename.html", Aspose.Words.SaveFormat.Html)

C#:

Aspose.Words.Document doc = new Aspose.Words.Document("filename.docORdocx");
doc.Save("filename.html", Aspose.Words.SaveFormat.Html);

组件在这里:
http://www.aspose.com/.net/word-component.aspx

要了解有效的电子邮件地址,请阅读RFC 822:
http://www.faqs.org/rfcs/rfc822.html

答案 1 :(得分:1)

即使起初你可能会被使用Com Interop和Asp.net的想法所吸引,也不要这样做。

http://support.microsoft.com/kb/257757

那就是说,知道我们在说什么版本的词是很重要的。较新的格式允许将它们视为包含xml文件的zip,并且有很好的免费库。

http://docx.codeplex.com/