纯统计,还是自然语言处理引擎?

时间:2011-07-08 19:59:31

标签: nlp text-mining opennlp statistics

哪些统计引擎比OpenNLP工具套件产生更好的结果?我正在寻找的是一个引擎,可以从文本中选择关键词并提供源于这些动词的动词。名词,也许自然语言处理不是这里的方式。引擎也应该使用不同的语言。

4 个答案:

答案 0 :(得分:3)

您可能正在寻找Snowball项目,该项目已开发出多种不同语言的词干分析器。

答案 1 :(得分:2)

LingPipe可能值得一看,作为完整的NLP工具。

然而,如果你需要做的就是找到动词和名词并将它们用来阻止它们,那么你可以这样做 1)标记文本 2)运行POS标记器 3)运行一个词干分析器

斯坦福工具可以为我认为的多种语言做到这一点,而NLTK将是一种快速尝试的方法。

然而,你要小心追求动词和名词 - 你如何处理名词短语和多字名词?理想情况下,一个nlp包可以处理这个,但很多都取决于你正在使用的域。不幸的是,很多NLP是你的数据有多好。

答案 2 :(得分:2)

如果您正在寻找Java代码,我可以推荐Stanford's set of tools。他们的POS tagger适用于英语,德语,中文和阿拉伯语(虽然我只将其用于英语),并且包含一个(仅限英语)的lemmatizer。

这些工具都是免费的,准确性非常高,基于Java的解决方案的速度也不算太差;主要问题有时是片状API和高内存使用。

答案 3 :(得分:1)

我对TreeTagger有很好的经验:

http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

它易于使用,比斯坦福大学更快,并且属于“好”的词干器/标签器。它一次完成所有操作:标记化/词干化/标记。