UnicodeDecodeError:'unicodeescape'编解码器无法解码位置10752-10753中的字节:截断的\ uXXXX转义

时间:2020-06-25 17:02:51

标签: python unicode-escapes

当我尝试读取数据时出现此错误

UnicodeDecodeError:“ unicodeescape”编解码器无法解码 位置10752-10753:截断的\ uXXXX转义符

我试图在数据前放置一个r,以将其转换为原始字符串,但是我没有工作。

任何建议?

读取数据

pd.set_option('display.max_colwidth',100)                                       # extend Columns display lenght to 100 Char
data = pd.read_csv(r'de_full_1.tsv',sep="\t", encoding= "unicode_escape")
data.head(100)

提到的行是:

10751 GerSenNeg429阴性Im“ Solar Valley”(太阳能谷)遭受了Sonne unter的侵害。 10752 GerSenNeg430负面的Leere Hallen,蒂菲·邦克 10753 GerSenNeg431阴性Ein paar Topfpflanzenkümmern,位于Hanwha-Q-Cells AG的zentralpforte中。 10754 GerSenNeg432负面人物Der Betonbau,摄影大师邦克(Der Betonbau),安斯特尔根(Infragen)终点站。

picture of rows

First rows

1 个答案:

答案 0 :(得分:0)

我不确定,因为您没有在提到的字节位置附近提供文件的内容,但是我假设数据只是自由使用\字符的常规文本。

但是,使用encoding="unicode_escape"意味着文件正在以\uXXXX序列编码Unicode字符(例如,\u03A8为字符Ψ),因此如果{{1} }或\u用于与有效的Unicode转义序列不匹配的另一种方式(例如字符串\U),则会出现错误。

您的C:\Users\Somebody应该与众不同。很难说没有看到您的文件,但很可能应该是encodingutf_8ascii

相关问题