从文本中提取专有名称的软件和技术是什么?

时间:2011-01-21 22:58:05

标签: parsing nlp information-retrieval

我有一大堆基于文本的文档(100,000+),我想从中提取专有名称(例如一个人的名字)。

任何人都可以推荐有助于实现此目标的技术和/或软件。我对低级文本解析并不特别感兴趣,因为我处于更高层次的事情中,例如识别和/或排名。

4 个答案:

答案 0 :(得分:4)

您是否在寻找命名实体识别?请查看wikipedia文章。

斯坦福NLP小组有一个不错的即用型套餐here,同时提供GPL和商业许可证。

答案 1 :(得分:1)

如果没有某种形式的Natural Language Processing,这样的事情就无法可靠地完成。一些常见问题:

  • 也是常用词的名称:John Black

  • 多种语言和同一词的各种形式。

  • 引用不同内容的名称。 Lily可以是一个人,一个地方,一只猫或只是花的名字。

NLP可以使用周围的语法结构来区分其中一些案例。

那就是说,你可以尝试的一种简单(和天真)技术就是使用单词的大写。如果你在一个句子中间看到一个大写的起始字母,它通常是某种名称。

您可以合理地假设任何此类单词在同一文档中引用相同的内容。序列中的两个这样的单词可能是姓名/姓氏组合等。

如果文件中的大写不能被信任,您可能可以信任一个正确的单词表,而不是为了获得适用语言的专有名称列表。

答案 2 :(得分:0)

或许你最好的选择是将每个单词与专有词典进行比较。

答案 3 :(得分:0)

如果您列出了所有唯一单词,然后删除了字典中的所有单词,该怎么办?

相关问题