我目前正在研究 NLP,但在创建文档术语矩阵时遇到了一些问题。我的数据集是一堆帖子标题(超过 150k) 现在,我的数据框设置有几种不同的变体。我有单词来自的原始数据集,它只在自己的行中列出每个标题。我还有两列列出了单独的词干关键字和它最初来自的帖子编号 (filteredTitle)。
filteredTitle 的例子:
Word DocID
place 1
tree 1
fence 1
slime 2
pear 2
shirt 3
对于第一个数据框,我尝试了不同的包来创建 DTM。例如,我使用了下面列出的 tm 包。
title_corpus = Corpus(VectorSource(data$title))
title_dtm <- DocumentTermMatrix(title_corpus,
control = list(
stopwords = TRUE,
removePunctuation = T,
removeNumbers = T,
stemming = T))
我还尝试在filteredTitle 上使用dcast 或将其转换为sparse.model.matrix。我无法使用 dcast,因为文件太大,并且稀疏模型矩阵不断向我的数据添加字符。我曾尝试将数据集分解为更小的块以使用 dcast,但由于标题的不同部分中存在重复的单词,它最终使用了更多的内存。
真的任何建议将不胜感激。 非常感谢您,祝您一切安好!