在 R 中为 NLP 创建大量 DTM

时间:2021-03-24 17:53:31

标签: r nlp sparse-matrix dcast

我目前正在研究 NLP,但在创建文档术语矩阵时遇到了一些问题。我的数据集是一堆帖子标题(超过 150k) 现在,我的数据框设置有几种不同的变体。我有单词来自的原始数据集,它只在自己的行中列出每个标题。我还有两列列出了单独的词干关键字和它最初来自的帖子编号 (filteredTitle)。

filteredTitle 的例子:

Word DocID
place 1
tree  1 
fence 1
slime 2
pear  2
shirt 3

对于第一个数据框,我尝试了不同的包来创建 DTM。例如,我使用了下面列出的 tm 包。

title_corpus = Corpus(VectorSource(data$title))
title_dtm <- DocumentTermMatrix(title_corpus,
                     control = list(
                       stopwords = TRUE, 
                       removePunctuation = T,
                       removeNumbers = T,
                       stemming = T))

我还尝试在filteredTitle 上使用dcast 或将其转换为sparse.model.matrix。我无法使用 dcast,因为文件太大,并且稀疏模型矩阵不断向我的数据添加字符。我曾尝试将数据集分解为更小的块以使用 dcast,但由于标题的不同部分中存在重复的单词,它最终使用了更多的内存。

真的任何建议将不胜感激。 非常感谢您,祝您一切安好!

0 个答案:

没有答案
相关问题