removeWords无效

时间:2015-09-04 12:13:14

标签: r tm

我正在尝试构建一个在此处找到的危险数据集的wordcloud:https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

我的代码如下:

library(tm)
library(SnowballC)
library(wordcloud)

jeopQ <- read.csv('JEOPARDY_CSV.csv', stringsAsFactors = FALSE)

jeopCorpus <- Corpus(VectorSource(jeopQ$Question))
jeopCorpus <- tm_map(jeopCorpus, PlainTextDocument)
jeopCorpus <- tm_map(jeopCorpus, removePunctuation)
jeopCorpus <- tm_map(jeopCorpus, removeWords, c('the', 'this', stopwords('english')))
jeopCorpus <- tm_map(jeopCorpus, stemDocument)

wordcloud(jeopCorpus, max.words = 100, random.order = FALSE)

单词&#39;&#39;和&#39;这个&#39;仍然出现在wordcloud中。为什么会发生这种情况?我该如何解决?

2 个答案:

答案 0 :(得分:9)

问题在于您没有执行小写操作。很多问题都以“The”开头。停用词都是小写的,例如“the”和“this”。由于“The”!=“the”,“The”不会从语料库中删除

如果您使用下面的代码,它应该可以正常工作:

double[][]

答案 1 :(得分:0)

论证的构建似乎不对:请参阅herehere

tm_map(jeopCorpus, removeWords, c(stopwords("english"),"the","this")) 

但如上所述,这些词已经包含在内,所以只需

tm_map(jeopCorpus, removeWords, stopwords("english")) 

应该有效

相关问题