java - 为什么ANSI和UNICODE难以使用流读取和写入文本？

当设计java时，决定将java中的 text 保存为Unicode，因此可以合并所有脚本，例如希腊文和韩文。

Unicode是所有符号的编号（代码点），可以通过UTF-8编码（多字节，一般最紧凑），UTF-16 LE / BE（2字节））甚至是UTF-32。

所以.class中的内部String常量是UTF-8。对于UTF-16，类型char是2个字节。 String保存了一个char的数组。

二进制数据，如byte[]或InputStream/OutputStream可以是文字。但要将其解释为 text ，需要知道这些字节的编码/字符集。因此，总是将字节和这些字节的一些字符集转换为内部Unicode（UTF-16）。

要回答这个问题，以某种方式提供二进制数据的字符集是不可避免的。这是二进制数据的缺陷。

当一个人到达String, char, Reader, Writer时，一个人已完全使用Unicode文本。

桥接类为InputStreamReader, OutputStreamWriter，Files提供了一些不错的实用功能。

将此情况与C进行比较，其中unsigned char可能与字节相同（或不相同），并且宽字符可能可用或不可用。 Java比一些语言做得更好。但是，具有C / C ++背景的Java程序员永远不应该使用String或char[]来获取二进制数据：双内存，不可撤销和损坏的转换。而是byte[], ByteArrayOutputStream, ByteBuffer。

为什么ANSI和UNICODE难以使用流读取和写入文本？

1 个答案: