从非结构化文本文件中提取人口统计和联系信息

时间:2010-06-01 01:50:48

标签: text text-extraction information-extraction

我希望从大量非结构化文档中提取特定项目。这些文档可以是用户以各种方式格式化的1-5页文本,但在大多数情况下至少包含:

  • 名称
  • 地址(物理)
  • 电子邮件地址
  • 电话号码
  • 网站网址

我正在寻找一种语义解析器,它可以尝试从文档中提取这些元素,以便我可以将这些信息加载到关系数据库中,并将这些记录作为联系人使用。

我寻找的其他服务虽然对其他目的很有价值,却无法满足这一特定需求。

任何想法,建议或线索?

1 个答案:

答案 0 :(得分:0)

您是否找到了问题的主角?我找到了一些研究文章:

www.cis.upenn.edu/~pereira/papers/crf.pdf

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192&rep=rep1&type=pdf

www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf

但没有关于实施任何这些想法的代码的具体示例。

看看这个: stackoverflow.com/questions/953150/general-address-parser-for-freeform-text

(抱歉,我排除了http,这个系统不允许我发布多个网址/链接)