我正在使用R来进行文本挖掘。我已经下载了html文件。我在尝试转换为文本时遇到问题,因为该语言是西班牙语。 我用过:
text<-readLines(i,encoding="UTF-8")
但是,我仍然可以使用以下文字:
prueba =“hizo la diagonal desde la izquierda hacia el centro y combinóconnngelDiMarÃa,quiendespachóelcentro desd e la derecha conelreéÃdela zurda para queSergioAgüeroueujaraen la entradadeláreachica。“
其中combinó=combinó,área=área等。我只需要保留原始的字母字符。 我可以有另外一个文字如下:
例如,“después”的意思是“después”prueba2 =“El club Atlas,de la Primera D,estáenla constantebúsquedadeCrecimiento。 Y en esa búsqueda,consiguióunaliado de lujo。萨尔瓦多 总统马克西安布罗西奥viajóalVaticano y tras entregarle una camiseta al Papa,lepidióalpropio 弗朗西斯科奎尔收养洛德罗德将军罗德里格斯科苏 segundo equipo,después de San Lorenzo。啦 “重新开放的地方”
我试过了:
iconv(prueba,to="ASCII//TRANSLIT")
但我得到同样的文字。
如何将文本转换为ASCII?