nlp - 纯统计，还是自然语言处理引擎？

时间：2011-07-08 19:59:31

标签： nlp text-mining opennlp statistics

哪些统计引擎比OpenNLP工具套件产生更好的结果？我正在寻找的是一个引擎，可以从文本中选择关键词并提供源于这些动词的动词。名词，也许自然语言处理不是这里的方式。引擎也应该使用不同的语言。

答案 0 :(得分：3)

您可能正在寻找Snowball项目，该项目已开发出多种不同语言的词干分析器。

答案 1 :(得分：2)

LingPipe可能值得一看，作为完整的NLP工具。

然而，如果你需要做的就是找到动词和名词并将它们用来阻止它们，那么你可以这样做 1）标记文本 2）运行POS标记器 3）运行一个词干分析器

斯坦福工具可以为我认为的多种语言做到这一点，而NLTK将是一种快速尝试的方法。

然而，你要小心追求动词和名词 - 你如何处理名词短语和多字名词？理想情况下，一个nlp包可以处理这个，但很多都取决于你正在使用的域。不幸的是，很多NLP是你的数据有多好。

答案 2 :(得分：2)

如果您正在寻找Java代码，我可以推荐Stanford's set of tools。他们的POS tagger适用于英语，德语，中文和阿拉伯语（虽然我只将其用于英语），并且包含一个（仅限英语）的lemmatizer。

这些工具都是免费的，准确性非常高，基于Java的解决方案的速度也不算太差;主要问题有时是片状API和高内存使用。

答案 3 :(得分：1)

我对TreeTagger有很好的经验：

它易于使用，比斯坦福大学更快，并且属于“好”的词干器/标签器。它一次完成所有操作：标记化/词干化/标记。