python - 从文档中提取和分类医疗代码的最佳方法？

我想解析医学文档并将其中的单词识别/分类为各种医学代码，例如HCPCS，ICD，CPT，APC等。我正在考虑这样做的最佳方法；我已经尝试过正则表达式，但是它们给了我很多误报（例如，HCPCS代码通常是5位数字或4位数字+ 1个字母），但这会增加10000 mg之类的东西，而其他代码不能只需检查4位数字，就很容易，因为在许多文档中，这需要几年的时间。

某些代码（例如HCPCS）格式正确，但其他代码（例如ICD）则格式不正确（M05.73，M05.732），因为它们的长度，小数位和格式可能有所不同（某些文档会说M05 .7x到M05.8x）

我也一直在考虑使用机器学习NLP方法，但是除了字长以外，我不确定我的功能会是什么。

有什么可行的方法呢？

编辑： 这是文档的摘录示例：

代码注释：以前，未列出的HCCCS代码C1889用于代表此设备。但是，适当的HCPCS代码描述的可吸收的鼻植入装置是C9749。医师鼻内植入物的工作将与未列出的一起收费 CPT代码30999-未列出的程序，鼻子。一些提供商可能会使用CPT 30465，用于修复鼻前庭狭窄（例如，吊具移植，鼻腔侧壁重建）；然而未列出的代码是适当的代码。代码编号说明CPT 30999未列出的程序，鼻子HCCCS C9749鼻前庭的修复带植入物的侧壁狭窄起源日期：2018年11月 SUR209 | 8

预期输出-将检测到的代码映射到可能的代码类型：

C1889（可能的代码类型：HCPCS）

C9749（可能的代码类型：HCPCS）

30999（可能的代码类型：HCPCS）

30465（可能的代码类型：HCPCS）

从文档中提取和分类医疗代码的最佳方法？

1 个答案:

cTAKES