从java中的纯文本中提取名称

时间:2013-09-18 11:39:39

标签: java parsing nlp

有没有办法从纯文本中解析名称(firstname和lastName s)。名称可以来自任何国家/地区。现在我正在构建一个可以获得的可能名称的数据库。还有其他好方法吗?

1 个答案:

答案 0 :(得分:1)

一般来说,NLP这个问题是NER (Named Entity Recognition)问题的一个子集。它可以通过至少两种方式来处理:

  • 基于规则的系统 - 所以你建立简单的规则,比如dictinary check-up,regexps for some Mr.,Phd。前缀等,并以你的提取为基础
  • 基于机器学习的系统 - 您使用一些词法和统计属性来表征每个单词标记,并训练一些分类器(例如HMMCRF)以检测特定单词(标记)是否为名字或姓氏。