java - 在JAVA中使用哪个NLP工具包？

在JAVA中使用哪个NLP工具包？

时间：2009-05-22 00:09:25

标签： java nlp text-mining

我正在开展一个项目，该项目包括一个连接到NCBI（国家生物技术信息中心）的网站，并在那里搜索文章。事情是我必须对所有结果进行一些文本挖掘。我正在使用JAVA语言进行文本化，使用IAXFACES进行AJAX用于开发网站。我有什么：搜索返回的文章列表。每篇文章都有一个ID和一个摘要。我们的想法是从每个抽象文本中获取关键字。然后比较所有摘要中的所有关键字，找出最重复的关键字。然后在网站上显示搜索的相关字词。有任何想法吗？我在网上搜索了很多，我知道有名称实体识别，词性标注，有关于基因和蛋白质的NER的GENIA词库，我已经尝试过阻止...停止单词列表等... 我只需要知道最好的aproahc来解决这个问题。非常感谢。

4 个答案:

答案 0 :(得分：5)

我建议你使用POS标记和字符串标记的组合来提取每个摘要中的所有名词..然后使用某种字典/哈希来计算每个名词的频率，然后输出N最多产的名词..将其与其他一些智能过滤机制相结合，应该能够很好地为您提供摘要中的重要关键词对于POS标记，请查看http://nlp.stanford.edu/software/index.shtml

处的POS标记

但是，如果你期望在你的语料库中有很多多字词而不是只提取名词，那么你可以把最多产的n-grams用于n = 2到4

答案 1 :(得分：1)

这也可能是相关的： https://github.com/jdf/cue.language

它有停用词，字和ngram频率，......

它是Wordle背后软件的一部分。

答案 2 :(得分：1)

有一个Apache项目......我没有使用它，但OpenNLP是一个开源的Apache项目。它在孵化器中，所以它可能有点原始。

来自jeff's search engine cafe的这篇文章还有其他一些建议。

答案 3 :(得分：0)

我最终使用了Alias`i Ling Pipe