使用带有R的ngrams的随机森林

时间:2017-05-10 14:26:39

标签: r text-mining sentiment-analysis n-gram quanteda

我是R的新手,我尝试使用随机森林进行客户评价进行情绪分析。

这就是我想使用ngrams(bigrams和trigrams)作为特色(我使用了quanteda R包quanteda package

这是R代码:

train <- Data_clean[train.index, ]
test <- Data_clean[test.index, ]
grams <- train$Reviews %>% tokens(ngrams = 1:3) %>% # generate tokens
  dfm  # generate dfm


#Compute tf-idf, inverse document frequency, and relative term frequency on document-feature matrices
tf.idf.ngrams <- tfidf(grams, normalize = FALSE, scheme = "inverse")


# train random forest classifier

ndsi.forest <- randomForest(tf.idf.ngrams[train.index, ], as.factor(train$Note.Reco[train.index]), ntree = 100)

但是在构建Random Forest分类器时出现错误:

> ndsi.forest <- randomForest(tf.idf.ngrams[train.index, ], as.factor(train$Note.Reco[train.index]), ntree = 100)
Error in t.default(x) : argument is not a matrix

你能帮我解决这个错误吗?

谢谢

0 个答案:

没有答案