Question

基本问题是，记事本（或其他基本文本编辑器）如何存储数据。我碰到了这个，因为我试图比较不同压缩技术的文件大小，并意识到某些东西不太正确。

详细说明..

如果我保存包含以下内容的文本文件：

该文件是1个字节。这个恰好是97或0x61。

我创建了一个包含以下内容的文本文件：

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ ¡¢£¤¥¦§¨©ª«¬®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþÿ

这是0-255或0x00到0xFF之间的所有字符。该文件是256个字节。每个字符1个字节。这对我来说很有意义。

然后我将以下字符附加到上面字符串的末尾。

†

上述字符串中未包含的字符。所有8位字符都已使用过。该字符为8224或0x2020。一个2字节的字符。

然而，文件大小仅从256更改为257字节。实际上，上面保存的字符本身只显示1个字节。

我错过了什么？

编辑：请注意，在第二个文本块中，许多字符不会显示在此处。

Answer 1

在ANSI编码（此8位Microsoft特定编码）中，将每个字符保存为一个字节（8位）。

ANSI也称为Windows-1252或Windows Latin-1

您应该查看ANSI Character Codes Chart或Windows-1252中的ANSI表

因此对于†字符，其代码为134，字节为0x86。

Answer 2

使用一个字节对字符进行编码只对表面有意义。如果你说英语就行不错，这是一个公平的灾难，你会说中文或日文。今天的Unicode定义了110,187个印刷符号，可以增长到110万个。字节不是存储Unicode符号的好方法，因为它只能编码256个不同的值。

因此，文本编辑器在将文本存储到文件时必须始终编码文本。需要进行编码以将110,187值映射到面向字节的存储介质上。如果你说中文，每个字符不可避免地需要超过1个字节。

有许多常用的编码方案。上个世纪流行的是代码页，一种使用字符集的方案。一种特定于语言的映射，通过挑选语言中可能需要的256个字符，尽可能地尝试每个字符只需要1个字节的存储空间。日语，韩语和中文使用多字节映射，因为它们必须使用其他语言1.

代码页面是一个巨大的灾难，程序无法正确读取用另一种语言的代码页编码的文本文件。当文本文件靠近创建它的机器时，它起作用，特别是互联网打破了这种用法。日本人特别容易发生这场灾难，因为它有多个常用的代码页。结果称为mojibake，用户在文本编辑器中查看乱码。 Unicode于1992年出现，试图解决这场灾难。一个替换所有其他标准的新标准倾向于调用another kind of disaster。

您遇到了这种灾难，特别是如果您使用记事本。尝试与过去30年创建的文本文件兼容的程序。 Google＆＃34; bush隐藏了事实＆＃34;这是一个有趣的故事。请注意使用File＆gt;时获得的对话框另存为，该对话框有一个额外的组合框标题为＆＃34;编码＆＃34;。默认值为ANSI，这是上个世纪的破碎名称，意思是＆＃34;代码页＆＃34;。正如您所发现的那样，该角色确实只需要在您机器的默认代码页中使用1个字节。取决于你居住的地方，在西欧和美洲是1252。如果用十六进制查看器查看文件，你将获得0x86。

鉴于该对话框为您提供了一个选择，并且您不不再支持ANSI的mojibake，而是始终支持UTF-8。也许他们有一天会更新记事本，所以它使用更好的默认值，很难做到。

文本编辑器如何将数据存储在1个字节以上？

2 个答案: