character-encoding - 什么是“高ascii”字符的正确技术术语？

什么是“高ascii”字符的正确技术术语？

时间：2009-10-02 17:12:07

标签： character-encoding terminology ascii character extended-ascii

引用“高ascii”或“扩展ascii”字符的技术上正确的方法是什么？我不只是指128-255的范围，而是0-127范围之外的任何字符。

通常它们被称为变音符号，重音字母，有时随便称为“国家”或非英语字符，但这些名称要么不精确，要么只涵盖可能字符的一部分。

程序员能够立即识别的正确，准确的术语是什么？在与非技术受众交谈时，最好的英语术语是什么？

8 个答案:

答案 0 :(得分：17)

“非ASCII字符”

答案 1 :(得分：2)

未定义127以上的ASCII字符代码。许多不同的设备和软件供应商为128-255开发了自己的字符集。有些选择了绘图符号，选择了重音字符，其他选择了其他字符。

Unicode是尝试制作一组通用的字符代码，其中包含大多数语言中使用的字符。这不仅包括传统的西方字母，还包括西里尔文，阿拉伯文，希腊文，甚至包括中文，日文和韩文的大量字符，以及现代和古代的许多其他语言。

Unicode有多种实现方式。如果UTF-8最受欢迎之一。这种普及的一个主要原因是它向后兼容ASCII，字符代码0到127对于ASCII和UTF-8都是相同的。

这意味着最好说ASCII是UTF-8的子集。字符代码128及以上不是ASCII。它们可以是UTF-8（或其他Unicode），也可以是硬件或软件供应商的自定义实现。

答案 2 :(得分：0)

“扩展ASCII”是我使用的术语，意思是“超出原始0-127的字符”。

Unicode是一组可能的扩展ASCII字符，并且相当大。

UTF-8是表示与原始ASCII向后兼容的Unicode字符的方式。

答案 3 :(得分：0)

您可以使用“trans-ASCII”，“supra-ASCII”，“ultra-ASCII”等术语。实际上，“meta-ASCII”会更好，因为它暗示了元位。

答案 4 :(得分：0)

如果您说“High ASCII”，则定义为128-255十进制范围。 ASCII本身被定义为一个字节（实际上是7位）字符表示;使用高位来允许后来发生的非英语字符，并产生代码页，它定义了由特定值表示的特定字符。任何多字节（＆gt; 255十进制值）都不是ASCII。

答案 5 :(得分：0)

不代表ASCII字符的位序列最终不是Unicode字符。

根据您使用的字符编码，可能是：

无效的位序列
Unicode字符
ISO-8859-x字符
Microsoft 1252字符
其他字符编码中的字符
错误，二进制数据等

适合所有这些情况的一个定义是：

不是ASCII字符

要高度迂腐，即使是“非ASCII字符”也不能完全适合所有这些情况，因为有时这个范围之外的位序列可能只是一个无效的位序列，而不是一个字符。 / p>

答案 6 :(得分：0)

从在线资源（Cool website though）中获取单词，因为我发现它有用且适合写作和回答。

首先只包括大写字母和数字，但在1967年增加了小写字母和一些控制字符，形成了所谓的US-ASCII，即字符0到127。因此，这套仅有128个字符于1967年作为标准出版，包含您用英语撰写的所有内容。

1981年，IBM开发了8位ASCII代码的扩展，名为＆＃34;代码页437＆＃34;，在此版本中替换了一些过时的图形字符控制字符。此外，还添加了128个字符，包括新符号，符号，图形和拉丁字母，所有标点符号以及用其他语言（如西班牙语）编写文本所需的字符。以这种方式添加了从128到255的ASCII字符。

IBM在其5150型硬件中包含对此代码页的支持，称为＆＃34; IBM-PC＆＃34;，被认为是第一台个人计算机。这个模型的操作系统，＆＃34; MS-DOS＆＃34;也使用了这个扩展的ASCII码。

答案 7 :(得分：-1)

非ASCII Unicode字符。