术语文档矩阵或文档术语矩阵哪个更好?

时间:2016-01-19 08:05:25

标签: r text-processing tm tf-idf frequency-distribution

我正在研究R 3.2.2中文本文档中唯一单词的频率。我现在将这么多文章折叠成一个单独的文本文档,然后使用tm包构成语料库。

desc<-paste(column_input, collapse=" ")
desrc <- VectorSource(desc)
decorp<-Corpus(desrc)
#dedtm <- DocumentTermMatrix(decorp)
#dedtm <- TermDocumentMatrix(decorp)

一个文本文档中有12000个单词。为了继续进行矩阵运算,我不太确定哪种方法更好。术语文档矩阵或文档术语矩阵?

我希望这取决于背景。如果文档较少且条款较多,使用术语文档矩阵而不是文档术语矩阵是否更好?我只是想了解这背后的逻辑。所以,我希望不需要任何可重复的例子。任何建议都将不胜感激。

提前致谢,

巴拉

0 个答案:

没有答案