R - 无法在gsub之后计算术语频率

时间:2018-06-14 19:32:52

标签: r gsub

我是R的新手,正在分析评论数据集。数据集中有一些标签,我设法找到用gsub替换它们的解决方案。

但是在更换它们并想要计算术语频率之后,频繁的术语变成了数字。检查已处理数据集的str()时,它会生成以下内容:

> str(full)
'data.frame':   10000 obs. of  1 variable:
 $ reviewContent: Factor w/ 9884 levels "\"ARS?!\" -- me when hearing"| __truncated__,..: 1941 9580 9393 1938 7192 885 3758 7201 2530 7445 ...

列出的是我的代码:

text <- subset(full, select = reviewContent) 
text <- as.data.frame(lapply(text, function(x) {gsub("\u00A0", " ", x)}))
corpus <- Corpus(VectorSource(text))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removeWords, stopwords("english"))
corpus <- tm_map(corpus, stemDocument)
     t <- TermDocumentMatrix(corpus)
     t <- data.matrix(t)
     t <- sort(rowSums(t),decreasing=TRUE)
     t <- data.frame(word = names(t),freq=t)
     head(t, 10)

     and result of term frequency is:
      word freq
  1084 1084    2
  1110 1110    2
  113   113    2
  1203 1203    2
  1255 1255    2
  140   140    2
  1409 1409    2
  1541 1541    2
  1593 1593    2
  1623 1623    2

真的很感激,如果有人能够解决这个问题。

0 个答案:

没有答案