在Java中读取gzipped chunked数据HTTP 1.1

时间:2017-05-19 09:27:14

标签: java http gzip chunked-encoding http-1.1

我正在尝试使用gzip压缩数据+ chunked编码来获取HTTP请求的正文。我正在使用的代码:

byte[] d; // *whole* request body

ByteArrayOutputStream b = new ByteArrayOutputStream();

int c = 0;
int p = 0;

int s = 0;

for(int i = 0; i < d.length; ++i) {
    if (s == 0 && d[i] == '\r' && d[i + 1] == '\n') {
        c = Integer.parseInt(new String(Arrays.copyOfRange(d, p+1, i)), 16);

        if(c == 0) break;

        b.write(Arrays.copyOfRange(d, i+2, i+2+c));

        p = i + 1;
        i += c + 1;

        s = 1;
    } else if (s == 1 && d[i] == '\r' && d[i + 1] == '\n') {
        p = i + 1;
        s = 0;
    }
}

// here comes the part where I decompress  b.toByteArray()

简而言之,程序读取块大小并将整个请求的一部分(从&#39; \ n&#39;到&#39; \ n&#39; +块大小)写入{{1}并重复该过程,直到找到大小为0的块。

如果我尝试解压缩此类数据,我总会收到一些损坏的数据警告,例如ByteArrayOutputStream b

有什么想法我可能做错了吗?

1 个答案:

答案 0 :(得分:2)

强制性序言:在专业背景下,我总是使用图书馆。例如,请参阅Apache HttpComponents,以便为您处理(以及更多)。如果您不想要图书馆,并且喜欢风险,那么JRE中会有sun.net.www.http.ChunkedInputStream

此外,在专业语境中,描述性变量名称将是首选:)

无论如何,我发现了一个错误:p应该使用-1初始化,而不是0

似乎全部,因为通过该修复,我可以解码以下内容(礼貌Wikipedia):

4\r\n
Wiki\r\n
5\r\n
pedia\r\n
E\r\n
 in\r\n
\r\n
chunks.\r\n
0\r\n
\r\n

进入这个:

Wikipedia in

chunks.

(是的,这是预期的输出,请参阅维基百科页面。)

如果您将p初始化为0,那么当您第一次需要使用它来阅读4时,您正在使用p+1,因此它会指向之后 4

我意识到我的示例不是gzip压缩,但我的观点是错误是在代码中读取第一个块的大小,所以它应该没关系......并且运气好,这将是唯一的错误。< / p>