替换文本中的所有罕见单词(在大文本中替换非常多的字符串)

时间:2017-03-26 22:39:57

标签: r

我有一个大文本,想要用一些标记替换所有低频率的单词,例如" ^ rare ^"。我的文件是170万行,清理后它有482,932个独特单词,其中超过40万个不到6个,这些是我想要替换的。

我认识的方式比实际需要更长的时间。例如,我刚刚从mgsub包中尝试qdap

test <- mgsub(rare, "<UNK>", smtxt$text)  

其中rare是所有罕见单词的向量,smtxt$text是包含所有文本的向量,每行一个句子。

R仍在处理它。

我认为,因为每个单词都是针对每个句子开始检查的,所以这是预期的。现在我不得不忘记做这样的事情。如果有另一种方式,我想听听别人的意见。因为除了我所知道的之外,我还没有考虑过很多选项:gsubmgsub,并且还尝试将文本转换为语料库以确定它是否会更快地处理。

由于

0 个答案:

没有答案
相关问题