在R中删除英语以外的语言

时间:2018-03-12 12:28:42

标签: r text-mining data-cleaning corpus

正在对包含youtube评论的大型数据集执行一些文本挖掘(超过25000条评论)。不幸的是,非英语语言中有很多评论,如西班牙语,德语或中文。

我设法通过踢出除a-z和数字0-9之外的字符来删除中文。这是代码:

corpus <- tm_map(corpus, content_transformer(function(s){
gsub(pattern = '[^a-zA-Z0-9\\s]+',
   x = s,
   replacement = " ",
   ignore.case = TRUE,
   perl = TRUE)})

但是,这并不会删除德语或西班牙语单词。你知道如何删除或检测除英语以外的其他语言进行文本挖掘吗?

任何帮助将不胜感激!

由于

0 个答案:

没有答案