Question

对于特定模式，最多避免使用硬编码规则。

我目前正在从事与AWS Textract link here类似的项目。我已经成功地从文件中提取了数据，但是以一种非结构化的方式。现在，我正在尝试以最佳方式找出如何从那堆信息中获取现有的键值对。

例如，我们有这样的文字：

在本文档中，我们将找到不同的键和值，例如id：1和那个国家/地区：法国，没有具体的标点符号，可能是在谈论我的健康状况如何……

提取将是这样的：

id : 1
country : France
health : good

我实际上知道的是，亚马逊使用“置信度”变量从这种情况下提取信息，我猜这涉及某种机器学习算法。就我而言，我没有那么大的数据库可以学习。

我很确定有一个更简单的解决方案，灵活性也不差。

Answer 1

我相信spaCy库可能是满足您需求的正确工具。查看GitHub上的描述以找出答案。

可以使用spacy-nlp软件包将其公开给Node JS。