Question

我想使用node.js发出HTTP请求，以从Web服务器加载一些文本。由于响应可以包含很多文本（几兆字节），我想分别处理每个文本块。我可以使用以下代码实现此目的：

var req = http.request(reqOptions, function(res) {
    ...
    res.setEncoding('utf8');
    res.on('data', function(textChunk) {
        // process utf8 text chunk
    });
});

这似乎没有问题。但是我想支持HTTP压缩，所以我使用zlib：

var zip = zlib.createUnzip();

// NO res.setEncoding('utf8') here since we need the raw bytes for zlib
res.on('data', function(chunk) {
    // do something like checking the number of bytes downloaded
    zip.write(chunk); // give the raw bytes to zlib, s.b.
});

zip.on('data', function(chunk) {
    // convert chunk to utf8 text:
    var textChunk = chunk.toString('utf8');

    // process utf8 text chunk
});

对于像'\u00c4'这样的多字节字符，这可能是一个问题，它由两个字节组成：0xC3和0x84。如果第一个字节被第一个块（Buffer）覆盖，第二个字节被第二个字节覆盖，那么chunk.toString('utf8')将在文本块的结尾处开始产生错误的字符。我怎么能避免这个？

提示：我仍然需要缓冲区（更具体地说是缓冲区中的字节数）来限制下载的字节数。因此，使用上面第一个示例代码中的res.setEncoding('utf8')来表示非压缩数据并不符合我的需求。

Answer 1

单缓冲区

如果您有一个Buffer，则可以使用其toString方法，该方法将使用特定编码将全部或部分二进制内容转换为字符串。如果您不提供参数，则默认为utf8，但我在此示例中明确设置了编码。

var req = http.request(reqOptions, function(res) {
    ...

    res.on('data', function(chunk) {
        var textChunk = chunk.toString('utf8');
        // process utf8 text chunk
    });
});

流式缓冲区

如果您有上述问题中的流式缓冲区，其中第一个UTF8（块）中可能包含多字节Buffer字符的第一个字节，第二个字节可能包含在第二个字节中Buffer然后您应该使用StringDecoder。：

var StringDecoder = require('string_decoder').StringDecoder;

var req = http.request(reqOptions, function(res) {
    ...
    var decoder = new StringDecoder('utf8');

    res.on('data', function(chunk) {
        var textChunk = decoder.write(chunk);
        // process utf8 text chunk
    });
});

这样，不完整的字符的字节由StringDecoder缓冲，直到所有必需的字节都写入解码器。

Answer 2

var fs = require("fs");

function readFileLineByLine(filename, processline) {
    var stream = fs.createReadStream(filename);
    var s = "";
    stream.on("data", function(data) {
        s += data.toString('utf8');
        var lines = s.split("\n");
        for (var i = 0; i < lines.length - 1; i++)
            processline(lines[i]);
        s = lines[lines.length - 1];
    });

    stream.on("end",function() {
        var lines = s.split("\n");
        for (var i = 0; i < lines.length; i++)
            processline(lines[i]);
    });
}

var linenumber = 0;
readFileLineByLine(filename, function(line) {
    console.log(++linenumber + " -- " + line);
});

将流式缓冲区转换为utf8-string

2 个答案:

单缓冲区

流式缓冲区