Question

我目前正在研究 NLP，但在创建文档术语矩阵时遇到了一些问题。我的数据集是一堆帖子标题（超过 150k）现在，我的数据框设置有几种不同的变体。我有单词来自的原始数据集，它只在自己的行中列出每个标题。我还有两列列出了单独的词干关键字和它最初来自的帖子编号 (filteredTitle)。

filteredTitle 的例子：

Word DocID
place 1
tree  1 
fence 1
slime 2
pear  2
shirt 3

对于第一个数据框，我尝试了不同的包来创建 DTM。例如，我使用了下面列出的 tm 包。

title_corpus = Corpus(VectorSource(data$title))
title_dtm <- DocumentTermMatrix(title_corpus,
                     control = list(
                       stopwords = TRUE, 
                       removePunctuation = T,
                       removeNumbers = T,
                       stemming = T))

我还尝试在filteredTitle 上使用dcast 或将其转换为sparse.model.matrix。我无法使用 dcast，因为文件太大，并且稀疏模型矩阵不断向我的数据添加字符。我曾尝试将数据集分解为更小的块以使用 dcast，但由于标题的不同部分中存在重复的单词，它最终使用了更多的内存。

真的任何建议将不胜感激。非常感谢您，祝您一切安好！

在 R 中为 NLP 创建大量 DTM

0 个答案: