读取数据

Question

当我尝试读取数据时出现此错误

UnicodeDecodeError：“ unicodeescape”编解码器无法解码位置10752-10753：截断的\ uXXXX转义符

我试图在数据前放置一个r，以将其转换为原始字符串，但是我没有工作。

任何建议？

读取数据

pd.set_option('display.max_colwidth',100)                                       # extend Columns display lenght to 100 Char
data = pd.read_csv(r'de_full_1.tsv',sep="\t", encoding= "unicode_escape")
data.head(100)

提到的行是：

10751 GerSenNeg429阴性Im“ Solar Valley”（太阳能谷）遭受了Sonne unter的侵害。 10752 GerSenNeg430负面的Leere Hallen，蒂菲·邦克 10753 GerSenNeg431阴性Ein paar Topfpflanzenkümmern，位于Hanwha-Q-Cells AG的zentralpforte中。 10754 GerSenNeg432负面人物Der Betonbau，摄影大师邦克（Der Betonbau），安斯特尔根（Infragen）终点站。

picture of rows

First rows

Answer 1

我不确定，因为您没有在提到的字节位置附近提供文件的内容，但是我假设数据只是自由使用\字符的常规文本。

但是，使用encoding="unicode_escape"意味着文件正在以\uXXXX序列编码Unicode字符（例如，\u03A8为字符Ψ），因此如果{{1} }或\u用于与有效的Unicode转义序列不匹配的另一种方式（例如字符串\U），则会出现错误。

您的C:\Users\Somebody应该与众不同。很难说没有看到您的文件，但很可能应该是encoding，utf_8或ascii。

UnicodeDecodeError：'unicodeescape'编解码器无法解码位置10752-10753中的字节：截断的\ uXXXX转义

读取数据

1 个答案: