当我尝试读取数据时出现此错误
UnicodeDecodeError:“ unicodeescape”编解码器无法解码 位置10752-10753:截断的\ uXXXX转义符
我试图在数据前放置一个r,以将其转换为原始字符串,但是我没有工作。
任何建议?
pd.set_option('display.max_colwidth',100) # extend Columns display lenght to 100 Char
data = pd.read_csv(r'de_full_1.tsv',sep="\t", encoding= "unicode_escape")
data.head(100)
提到的行是:
10751 GerSenNeg429阴性Im“ Solar Valley”(太阳能谷)遭受了Sonne unter的侵害。 10752 GerSenNeg430负面的Leere Hallen,蒂菲·邦克 10753 GerSenNeg431阴性Ein paar Topfpflanzenkümmern,位于Hanwha-Q-Cells AG的zentralpforte中。 10754 GerSenNeg432负面人物Der Betonbau,摄影大师邦克(Der Betonbau),安斯特尔根(Infragen)终点站。
答案 0 :(得分:0)
我不确定,因为您没有在提到的字节位置附近提供文件的内容,但是我假设数据只是自由使用\
字符的常规文本。
但是,使用encoding="unicode_escape"
意味着文件正在以\uXXXX
序列编码Unicode字符(例如,\u03A8
为字符Ψ
),因此如果{{1} }或\u
用于与有效的Unicode转义序列不匹配的另一种方式(例如字符串\U
),则会出现错误。
您的C:\Users\Somebody
应该与众不同。很难说没有看到您的文件,但很可能应该是encoding
,utf_8
或ascii
。