从非结构化字符串中提取键值对的最佳方法?

时间:2018-12-09 10:39:32

标签: javascript node.js machine-learning artificial-intelligence text-extraction

对于特定模式,最多避免使用硬编码规则。

我目前正在从事与AWS Textract link here类似的项目。我已经成功地从文件中提取了数据,但是以一种非结构化的方式。现在,我正在尝试以最佳方式找出如何从那堆信息中获取现有的键值对。

例如,我们有这样的文字:

  

在本文档中,我们将找到不同的键和值,例如id:1和那个国家/地区:法国,没有具体的标点符号,可能是在谈论我的健康状况如何……

提取将是这样的:

id : 1
country : France
health : good

我实际上知道的是,亚马逊使用“置信度”变量从这种情况下提取信息,我猜这涉及某种机器学习算法。就我而言,我没有那么大的数据库可以学习。

我很确定有一个更简单的解决方案,灵活性也不差。

1 个答案:

答案 0 :(得分:1)

我相信spaCy库可能是满足您需求的正确工具。查看GitHub上的描述以找出答案。

可以使用spacy-nlp软件包将其公开给Node JS。

相关问题