将数据框打印到保留非拉丁字符的CSV文件

时间:2019-02-23 21:17:16

标签: python pandas

我在Python上有一个包含近55000行的数据框。有些单元格包含非拉丁字符,当我使用df.to_csv('./df.csv')时,它们将打印为不同的字符。

例如,とある魔術の禁書目録 3 (Toaru Majutsu no Index, #3)在CSV文件中被打印为ã¨ã‚る魔術ã®ç¦æ›¸ç›®éŒ² 3 (Toaru Majutsu no Index, #3)

如何在CSV文件中保留原始拼写?

1 个答案:

答案 0 :(得分:1)

尝试以下方法之一:

df.to_csv('./df.csv', encoding='utf-8-sig')
df.to_csv('./df.csv', encoding='utf-16')

utf-8-sig代表:

  

此模块实现了UTF-8编解码器的一种变体:在编码时,将以UTF-8编码的BOM前缀为UTF-8编码的字节。对于有状态编码器,此操作仅执行一次(第一次写入字节流时)。为了对数据开头的可选UTF-8编码BOM进行解码,将被跳过。

来源:https://docs.python.org/2.5/lib/module-encodings.utf-8-sig.html