删除常用英语单词策略

时间:2011-09-23 17:43:29

标签: lucene weka stop-words snowball

我想从html页面中提取相关的关键字。

我已经规定了所有的html内容,将文本分成单词,使用词干分析器并删除了lucene中停止单词列表中出现的所有单词。

但是现在我仍然有很多基本的动词和代词作为最常见的单词。

在lucene或snowball或其他任何地方是否有一些方法或一组词来过滤掉所有这些东西,比如“我,是,去,去,我,它,是,我们,你,我们,...... “

3 个答案:

答案 0 :(得分:4)

您正在寻找“停用词”一词。对于Lucene,这是内置的,你可以在StopWordAnalyzer.java中添加它们(参见http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/

答案 1 :(得分:2)

这似乎是反文档频率的一个非常简单的应用。如果你甚至有一个小的语料库,10,000个网页,你可以计算每个单词出现在文档中的概率。然后选择一个阈值,您认为这些词语开始变得有趣或满足,并排除该阈值之前的单词。

或者,此列表看起来不错。 http://www.lextek.com/manuals/onix/stopwords1.html

答案 2 :(得分:1)

tmR包为R提供了许多常见NLP任务的接口,并且具有Weka接口。可能值得一试。文档为here

在更加粗略地查看您的问题时,您可能正在寻找removeStopWords()包中的tm函数。