我正在使用PyCharm来清理ML的训练集。
长话短说,我存储的字符串与我在调试器观察器中看到的字符串不同。
这是编码问题吗?我该怎么做对吗?
调试器:
真正的csv:
我加载csv文件并将列拆分为:
train_set_x = csv.reader(csvfile, delimiter=',', quotechar='|')
index, text = zip(*((c[0], c[1]) for c in train_set_x))
这真让我烦恼,因为我以后必须删除所有问号。一旦我完成条带化并将字符串存储回另一个csv,问号仍然存在。
BTW,这是我用于条带化的代码:
entry = ''.join(filter(str.isalpha,entry))
(“entry”是1D numpy数组的一个元素,从上面的“text”转换而来)
我已经尝试过记事本++提供的所有编码,但没有好处。
问题是我加载了编码为“utf-8”的文件,并没有使用这种编码编写它。通过编写带有“utf-8”编码的文件解决了这个问题。