将西班牙语的Web文本转换为ASCII

时间:2014-10-14 02:28:44

标签: r utf-8 web-scraping ascii text-mining

我正在使用R来进行文本挖掘。我已经下载了html文件。我在尝试转换为文本时遇到问题,因为该语言是西班牙语。 我用过:

text<-readLines(i,encoding="UTF-8")

但是,我仍然可以使用以下文字:

  

prueba =“hizo la diagonal desde la izquierda hacia el centro y   combinóconnngelDiMarÃa,quiendespachóelcentro desd e la   derecha conelreéÃdela zurda para queSergioAgüeroueujaraen   la entradadeláreachica。“

其中combinó=combinó,área=área等。我只需要保留原始的字母字符。 我可以有另外一个文字如下:

  

prueba2 =“El club Atlas,de la Primera D,estáenla   constantebúsquedadeCrecimiento。 Y en esa   búsqueda,consiguióunaliado de lujo。萨尔瓦多   总统马克西安布罗西奥viajóalVaticano y tras   entregarle una camiseta al Papa,lepidióalpropio   弗朗西斯科奎尔收养洛德罗德将军罗德里格斯科苏   segundo equipo,después de San Lorenzo。啦   “重新开放的地方”

例如,“después”的意思是“después”

我试过了:

iconv(prueba,to="ASCII//TRANSLIT")

但我得到同样的文字。

如何将文本转换为ASCII?

0 个答案:

没有答案
相关问题