从不同的非结构化文本文件中检索信息 - 文本挖掘?

时间:2010-03-17 10:34:36

标签: c# data-mining text-mining

我需要一些帮助来解决这个问题。

我们有大量给定指定域的文档。这些文件来自不同的来源,因此它们的结构也可能非常不同。另一方面,我有一个表格,其中包含一些指定的字段,其中一些数字必须从文档的摘录中填充。

例如:

  

公司x的业务量为   2010年20美元。交换的是1,000,000美元   公司今年。

结果应该是这样的

|| Company | Year | Volume  
||  X      | 2010 |  200,000  
||  Y      | 2010 | 1000,000  

你能指点我一些链接或主题,在那里我可以找到如何解决这个问题的进一步信息。

我知道没有开箱即用的解决方案,但我应该从哪里开始寻找。

提前致谢。

1 个答案:

答案 0 :(得分:2)

确定。有整个计算机科学实验室致力于这种东西! 也许首先看一个名为RapidMiner

的工具

此外,我还有一些PDF格式的研究论文题目(遗憾的是我没有链接):

<强> 1。自动理解财务报表 使用神经网络和语义语法

詹姆斯马尔科维奇 邓恩&amp; Bradstreet,搜索技术 1995年4月 电子邮件:jsmarkovitch@yahoo.com 版权所有1995 James Markovitch

<强> 2。文档图像自动语义结构提取的集成方法

Margherita Berardi,Michele Lapi和Donato Malerba Dipartimento di Informatica - UniversitàdegliStudi di Bari 通过Orabona 4 - 70126 Bari {Berardi的,拉皮,malerba} @ di.uniba.it

我认为第一个对你所追求的东西最感兴趣。不太确定它会有多大的价值:))