Java中String类的成员使用了什么样的utf8编码?

时间:2010-08-23 02:15:11

标签: java encoding utf-8

String类有一个构造函数:

 new String(byte[] bytes, Charset charset)

和方法:

 byte[] getBytes(Charset charset)

鉴于我将charset定义如下:

 Charset charset = Charset.forName("UTF-8");

我实际上会使用什么样的编码?更具体地说,它是标准的UTF-8(如RFC 3629中所述),还是CESU-8Modified UTF-8? (另见Wikipedia article

如果它不是标准的UTF-8,是否有一个允许在utf8中进行字符串操作的库?

这些UTF-8衍生编码的转换器非常受欢迎!

1 个答案:

答案 0 :(得分:3)

  

UTF-8字符集由RFC 2279指定;它所基于的转换格式在ISO 10646-1的第2修正案中规定,并在Unicode Standard中进行了描述。

http://download-llnw.oracle.com/javase/6/docs/api/java/nio/charset/Charset.html