从.NET中的所有类型的文档中仅读取和提取所需内容

时间:2016-11-24 06:15:59

标签: asp.net .net asp.net-mvc-4 c#-4.0 .doc

我正在尝试在C#.NET / MVC / ASP.NET中构建一个系统,我们在.doc,.xls,.pdf,.txt等中有1000个不同的文档,这些是用于字幕的电影/串行脚本和配音。

我必须提取实际内容,即对话,从所有模板中排除不需要的文本,并在一个脚本中计算不同字符的行/段数。

问题在这里,没有预定义/具体的文件格式,并且说我们也无法定义,因为它们来自不同的国家/州,每种都有不同的编写脚本的方式。

如果有人已经开发了这种类型的系统或使用过任何第三方开源或付费API,那将非常感激。

先谢谢。

0 个答案:

没有答案
相关问题