对于特定模式,最多避免使用硬编码规则。
我目前正在从事与AWS Textract link here类似的项目。我已经成功地从文件中提取了数据,但是以一种非结构化的方式。现在,我正在尝试以最佳方式找出如何从那堆信息中获取现有的键值对。
例如,我们有这样的文字:
在本文档中,我们将找到不同的键和值,例如id:1和那个国家/地区:法国,没有具体的标点符号,可能是在谈论我的健康状况如何……
提取将是这样的:
id : 1
country : France
health : good
我实际上知道的是,亚马逊使用“置信度”变量从这种情况下提取信息,我猜这涉及某种机器学习算法。就我而言,我没有那么大的数据库可以学习。
我很确定有一个更简单的解决方案,灵活性也不差。