从pdf文件中提取邮政地址

时间:2011-07-05 12:07:23

标签: regex pdf text data-mining text-mining

是否有任何图书馆/工具包可以帮助我从非结构化PDF文档(例如字母)中提取邮政地址信息?如果没有,你将如何处理这项任务?

我考虑使用开源PDF库并使用正则表达式模式搜索信息,但我不确定是否可以使用这种简单的方法可靠地识别地址。不幸的是,我参加的数据挖掘课程没有触及文本挖掘,只处理高度结构化的数据。也许从事自然语言处理的人知道一个有用的库或工具包吗?

2 个答案:

答案 0 :(得分:1)

我建议http://pdfbox.apache.org读取pdf(即转换为文本)和http://code.google.com/p/graph-expression/写入Post地址语法。

答案 1 :(得分:0)

使用pdf2xml或任何其他PDF库/工具包,并使用您最喜欢的搜索引擎搜索“邮政地址提取”并将搜索限制为文件类型pdf。