iso-8859-1的编码和字符集

时间:2016-07-22 08:48:28

标签: unicode encoding utf-8 iso-8859-1

我读过Joel关于编码的文章。据我所知,在unicode的情况下:

  1. unicode 是一个字符集 - 整数值和字符之间的映射
  2. utf-8 是一种用于unicode整数的编码,用于在二进制视图中显示它们
  3. iso-8859-1 怎么样?它是编码或字符集还是两者兼而有之?

2 个答案:

答案 0 :(得分:0)

ISO 8859-1 (Latin-1)是单字节编码。它代表前256个Unicode字符。因此,只要它是Unicode字符集的子集,我想它可以被视为编码和字符集。

答案 1 :(得分:0)

  

iso-8859-1怎么样?它是编码或字符集还是两者兼而有之?

从历史上看,它被描述为一个编码字符集:它定义了一组字符,以及这些字符到字节值的映射 - 我们今天称之为编码,但没有在这些术语中明确描述。

创建Unicode时,它被设计为包含(几乎)广泛使用的字符集中的所有字符,因此它将由ISO-8859-1编码字符集定义的字节流重新编码为更广泛的通用编码字符集。

因此,如果您在现代Unicode环境中工作,则可以将ISO-8859-1视为编码。但是,考虑到它也是一个字符集,真的可以说是错误的。

(还有其他编码绝对不是字符集:例如UTF,以及像Shift-JIS这样的多字节编码,它本身被定义为Unicode之前的JIS X 0208字符集的编码扩展-and-拥抱。)