text - 从非结构化文本文件中提取人口统计和联系信息

时间：2010-06-01 01:50:48

标签： text text-extraction information-extraction

我希望从大量非结构化文档中提取特定项目。这些文档可以是用户以各种方式格式化的1-5页文本，但在大多数情况下至少包含：

我正在寻找一种语义解析器，它可以尝试从文档中提取这些元素，以便我可以将这些信息加载到关系数据库中，并将这些记录作为联系人使用。

我寻找的其他服务虽然对其他目的很有价值，却无法满足这一特定需求。

任何想法，建议或线索？

答案 0 :(得分：0)

您是否找到了问题的主角？我找到了一些研究文章：

www.cis.upenn.edu/~pereira/papers/crf.pdf

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192&rep=rep1&type=pdf

www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf

但没有关于实施任何这些想法的代码的具体示例。

看看这个： stackoverflow.com/questions/953150/general-address-parser-for-freeform-text

（抱歉，我排除了http，这个系统不允许我发布多个网址/链接）