在JAVA中使用哪个NLP工具包?

时间:2009-05-22 00:09:25

标签: java nlp text-mining

我正在开展一个项目,该项目包括一个连接到NCBI(国家生物技术信息中心)的网站,并在那里搜索文章。事情是我必须对所有结果进行一些文本挖掘。 我正在使用JAVA语言进行文本化,使用IAXFACES进行AJAX用于开发网站。  我有什么: 搜索返回的文章列表。 每篇文章都有一个ID和一个摘要。 我们的想法是从每个抽象文本中获取关键字。 然后比较所有摘要中的所有关键字,找出最重复的关键字。然后在网站上显示搜索的相关字词。 有任何想法吗 ? 我在网上搜索了很多,我知道有名称实体识别,词性标注,有关于基因和蛋白质的NER的GENIA词库,我已经尝试过阻止...停止单词列表等... 我只需要知道最好的aproahc来解决这个问题。 非常感谢。

4 个答案:

答案 0 :(得分:5)

我建议你使用POS标记和字符串标记的组合来提取每个摘要中的所有名词..然后使用某种字典/哈希来计算每个名词的频率,然后输出N最多产的名词..将其与其他一些智能过滤机制相结合,应该能够很好地为您提供摘要中的重要关键词 对于POS标记,请查看http://nlp.stanford.edu/software/index.shtml

处的POS标记

但是,如果你期望在你的语料库中有很多多字词而不是只提取名词,那么你可以把最多产的n-grams用于n = 2到4

答案 1 :(得分:1)

这也可能是相关的: https://github.com/jdf/cue.language

它有停用词,字和ngram频率,......

它是Wordle背后软件的一部分。

答案 2 :(得分:1)

有一个Apache项目......我没有使用它,但OpenNLP是一个开源的Apache项目。它在孵化器中,所以它可能有点原始。

来自jeff's search engine cafe的这篇文章还有其他一些建议。

答案 3 :(得分:0)

我最终使用了Alias`i Ling Pipe