Java byte []到/从String转换

时间:2013-04-26 08:33:31

标签: java string utf-8 byte bytearray

为什么这次junit测试失败?

import org.junit.Assert;
import org.junit.Test;

import java.io.UnsupportedEncodingException;

public class TestBytes {
    @Test
    public void testBytes() throws UnsupportedEncodingException {
        byte[] bytes = new byte[]{0, -121, -80, 116, -62};
        String string = new String(bytes, "UTF-8");
        byte[] bytes2 = string.getBytes("UTF-8");
        System.out.print("bytes2: [");
        for (byte b : bytes2) System.out.print(b + ", ");
        System.out.print("]\n");
        Assert.assertArrayEquals(bytes, bytes2);
    }
}

我认为传入的字节数组等于结果,但不知何故,可能是由于UTF-8字符占用两个字节,结果数组在内容和长度上都与传入数组不同。

请赐教。

2 个答案:

答案 0 :(得分:4)

原因是0, -121, -80, 116, -62不是有效的UTF-8字节序列。 new String(bytes," UTF-8")在这种情况下不会抛出任何异常,但结果很难预测。阅读http://en.wikipedia.org/wiki/UTF-8 无效的字节序列部分。

答案 1 :(得分:1)

数组字节包含负注明的值,这些值设置为第8位(bit7),并作为多字节序列转换为UTF-8。如果仅使用值范围为0..127的字节,则bytes2将与字节相同。要制作给定字节的副本,可以使用例如arraycopy方法:

    byte[] bytes3 = new byte[bytes.length];
    System.arraycopy(bytes, 0, bytes3, 0, bytes.length);