写入csv文件

时间:2017-10-16 05:02:00

标签: python csv numpy encoding character-encoding

我正在使用PyCharm来清理ML的训练集。

长话短说,我存储的字符串与我在调试器观察器中看到的字符串不同。

这是编码问题吗?我该怎么做对吗?

调试器:

enter image description here

真正的csv:

enter image description here

我加载csv文件并将列拆分为:

    train_set_x = csv.reader(csvfile, delimiter=',', quotechar='|')
    index, text = zip(*((c[0], c[1]) for c in train_set_x))

这真让我烦恼,因为我以后必须删除所有问号。一旦我完成条带化并将字符串存储回另一个csv,问号仍然存在。

BTW,这是我用于条带化的代码:

entry = ''.join(filter(str.isalpha,entry))

(“entry”是1D numpy数组的一个元素,从上面的“text”转换而来)

我已经尝试过记事本++提供的所有编码,但没有好处。

解决

问题是我加载了编码为“utf-8”的文件,并没有使用这种编码编写它。通过编写带有“utf-8”编码的文件解决了这个问题。

0 个答案:

没有答案