从非结构化文本中提取信息的最佳方法

时间:2017-05-10 11:49:16

标签: python r solr nlp text-mining

我的目标是从旧的扫描报告中提取信息并存储在结构化数据库中。我已经使用Solr从这些报告中提取了文本。

所有这些都是科学报告,在报告内容方面有不同的结构,但所有这些都有类似的信息。我想使用这些报告创建一个结构化数据库,例如报告中涉及的公司名称,报告中涉及的软件名称,位置名称,实验日期等。对于每个字段,我都有一些关键词应该用于提取,例如位置信息:位置,实验地点,地点,设施等。这个方向的最佳方法是什么?

此外,在其中一些文件中,没有要处理的句子。信息以表格形式给出,例如:

地点:加拿大

实验日期:1985-05-01。

哪种技术最适合提取信息?还应该使用哪些软件库?

0 个答案:

没有答案