将语料库中的每个文档转换为单独的字符向量

时间:2016-07-01 06:50:27

标签: r tm corpus

我有一个使用由许多文档组成的tm包创建的语料库。我想在我的文档中使用stringr函数str_detect来查看文档是否包含来自另一个文档的字符串。我想要的输出是关于每个文档是否与语料库中的每个其他文档一致的真/假列表。以下是使用tm包中的原始数据集的代码示例:

library(tm)
library(stringr)
data("crude")
for (i in 1:length(crude)) {
text <- crude[[i]]
search <- str_detect(crude, text)
}

但是在这样做时,我收到一条错误,指出str_detect函数不适用于纯文本文档。所以,我想要做的是将语料库中的每个文档转换为单独的字符向量,以便str_detect可以工作。

我尝试过:

chr.vector <- as.character(crude) 

它返回一个包含我语料库中所有内容的字符向量,这不是我想要的。所以我正在考虑做一个for循环,只是因为我不知道如何以一种好的方式显示我的输出。

for (i in 1:length(crude)) {
x <- as.character(crude[[i]])

有人可以告诉我如何在这里完成我的代码吗?或者,如果有更好的方法来解决这个问题?谢谢!

0 个答案:

没有答案
相关问题