试图找出字符集

时间:2012-12-13 21:16:50

标签: character-encoding

我正在从Google文档中下载CSV,其中包含“保存为\ xE2 \ x80 \ x9C和”的字符保存为\ xE2 \ x80 \ x9D。

我的问题是......那些被拯救的字符集是什么?我该如何解决这个问题呢?

1 个答案:

答案 0 :(得分:1)

它是UTF-8 ..您可以通过将其解码为UTF-8来表示它显示正确的字符。

UTF-8也有一个独特且非常独特的模式,只有3个字节,最高位集形成一个有效的UTF-8序列,足以判断某些东西是否具有99%置信度的UTF-8。即使最高位设置的2个字节形成有效的UTF-8序列,您也可以达到90%。


如果它不是UTF-8,而是一些8位代码页,那么单独查看字节是不可能的。在没有任何其他信息的情况下,您基本上必须通过在各种8位编码中对其进行解码然后查看其是否正确来进行暴力破解。另一种可能性是使用一种能够自动完成编码的算法,并查看结果是否适用于任何语言。

有了更多信息,例如文件保存在哪个操作系统和区域设置中,您可以减少可能的编码量以尝试大量的交易。