可以使用readLines对R进行ngram处理吗?

时间:2018-05-16 02:33:07

标签: r statistics text-mining phrases

我试图计算由一到八个单词组成的短语的频率。我一直在阅读这里和其他地方的短语文本挖掘,并发现使用ngram标记化将是最好的方法。

但是,当我从.txt文件复制并粘贴文本时,它会为多行产生一个未识别的符号错误。是否可以在ngram_Tokenizer代码中使用readLines函数代替X? E.g:

tomkauffman在 GitHubGist 1)给出的示例中的

Bigram_Tokenizer<-function(X(readLines(file.choose())(Ngram_tokenizer(X(readLines(file.choose(),WekaControl(min=#,max=#)

当我复制readLines打印输出时,它出现意外[在[&#39;我是否需要在&#34; X&#34;中包含相同的文本?条目?

谢谢你, 本M.

0 个答案:

没有答案