Question

我需要一些帮助来解决这个问题。

我们有大量给定指定域的文档。这些文件来自不同的来源，因此它们的结构也可能非常不同。另一方面，我有一个表格，其中包含一些指定的字段，其中一些数字必须从文档的摘录中填充。

例如：

公司x的业务量为 2010年20美元。交换的是1,000,000美元公司今年。

结果应该是这样的

|| Company | Year | Volume  
||  X      | 2010 |  200,000  
||  Y      | 2010 | 1000,000

你能指点我一些链接或主题，在那里我可以找到如何解决这个问题的进一步信息。

我知道没有开箱即用的解决方案，但我应该从哪里开始寻找。

提前致谢。

Answer 1

确定。有整个计算机科学实验室致力于这种东西！也许首先看一个名为RapidMiner

的工具

此外，我还有一些PDF格式的研究论文题目（遗憾的是我没有链接）：

<强> 1。自动理解财务报表使用神经网络和语义语法

<强> 2。文档图像自动语义结构提取的集成方法

Margherita Berardi，Michele Lapi和Donato Malerba Dipartimento di Informatica - UniversitàdegliStudi di Bari 通过Orabona 4 - 70126 Bari {Berardi的，拉皮，malerba} @ di.uniba.it

我认为第一个对你所追求的东西最感兴趣。不太确定它会有多大的价值:)）

从不同的非结构化文本文件中检索信息 - 文本挖掘？

1 个答案: