语料库没有正确阅读R中的文本

时间:2015-04-21 22:25:15

标签: r twitter corpus

我正在使用'tm'R包对一小部分推文进行分析。数据位于csv文件中,包含一些元数据和推文本身,如下所示:

2461,1425999216,RT @victoriavaneyk: Bitcoin is being used by African migrant workers to send money home #Bitcoin http://t.co/z0Lkm2ncUw,2.9690174302789387

我将文件读入数据框并尝试从中构建语料库:

data <- read.csv(file, header=TRUE)
corpus <- Corpus(DataframeSource(data))

数据框似乎包含了我所期望的内容,包括推文的文本。但是当我检查语料库时,似乎所有文本都被一些整数值替换。这个整数来自哪里?为什么推文的文字丢失了?

> inspect(corpus[1])
<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>

[[1]]
<<PlainTextDocument (metadata: 7)>>
2461
1425999216
2940
2.96901743027894

1 个答案:

答案 0 :(得分:0)

data <- read.csv(file, header=TRUE, stringsAsFactors=FALSE)