如果文字有损坏的字符,请仅保留字母字符和数字?

时间:2017-08-19 13:33:17

标签: r regex

我有一个带有一些损坏字符的文件,我想清理它并只保留字母字符和数字。数据如下所示:

data <- c("120 RED[¹", "121 ªÚêÝk College", "[²¯x¬ Street", "Sky ªÚêÝk")

所需的输出是:

clean_data <- c("120 RED","121 College", "Street","Sky")

1 个答案:

答案 0 :(得分:2)

这将替换除字母,数字和&amp;之外的所有内容。与&#34;&#34;:

的空白区域
gsub("([^A-Za-z0-9 ])+", "", x = data)

[1] "120 RED"       "121 k College" "x Street"      "Sky k" 

我担心它还会留下随机的k,x和k,因为那些是被腐败的包围的正常字母。