我希望从大量非结构化文档中提取特定项目。这些文档可以是用户以各种方式格式化的1-5页文本,但在大多数情况下至少包含:
我正在寻找一种语义解析器,它可以尝试从文档中提取这些元素,以便我可以将这些信息加载到关系数据库中,并将这些记录作为联系人使用。
我寻找的其他服务虽然对其他目的很有价值,却无法满足这一特定需求。
任何想法,建议或线索?
答案 0 :(得分:0)
您是否找到了问题的主角?我找到了一些研究文章:
www.cis.upenn.edu/~pereira/papers/crf.pdf
citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192&rep=rep1&type=pdf
www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf
但没有关于实施任何这些想法的代码的具体示例。
看看这个: stackoverflow.com/questions/953150/general-address-parser-for-freeform-text
(抱歉,我排除了http,这个系统不允许我发布多个网址/链接)