过滤大量文本中的信息

时间:2011-06-10 14:04:58

标签: data-mining data-extraction

是否有最佳实践,算法或软件(需要许可许可的开源......)可以从文本正文中查找信息?我指的是:

  • 查找文字中的所有电子邮件地址
  • 查找所有城市提及
  • 找到所有州的提及
  • 找到所有网址
  • 找到所有提及的电话号码
  • 找到所有提到的zipcodes ......能够添加更多......

我听说RapidMiner应该能够像这样进行文本挖掘,但AGPL不是我可接受的许可证。

进行这种分析有什么“标准”吗?

2 个答案:

答案 0 :(得分:1)

了解Named Entity Recognition。您可以尝试Apache OpenNLPApache UIMA,两者都具有Apache许可证。

答案 1 :(得分:1)

对于此类实体类型,您可以使用基于规则的NER工具,例如gexp