我想使用node.js发出HTTP请求,以从Web服务器加载一些文本。由于响应可以包含很多文本(几兆字节),我想分别处理每个文本块。我可以使用以下代码实现此目的:
var req = http.request(reqOptions, function(res) {
...
res.setEncoding('utf8');
res.on('data', function(textChunk) {
// process utf8 text chunk
});
});
这似乎没有问题。但是我想支持HTTP压缩,所以我使用zlib:
var zip = zlib.createUnzip();
// NO res.setEncoding('utf8') here since we need the raw bytes for zlib
res.on('data', function(chunk) {
// do something like checking the number of bytes downloaded
zip.write(chunk); // give the raw bytes to zlib, s.b.
});
zip.on('data', function(chunk) {
// convert chunk to utf8 text:
var textChunk = chunk.toString('utf8');
// process utf8 text chunk
});
对于像'\u00c4'
这样的多字节字符,这可能是一个问题,它由两个字节组成:0xC3
和0x84
。如果第一个字节被第一个块(Buffer
)覆盖,第二个字节被第二个字节覆盖,那么chunk.toString('utf8')
将在文本块的结尾处开始产生错误的字符。我怎么能避免这个?
提示:我仍然需要缓冲区(更具体地说是缓冲区中的字节数)来限制下载的字节数。因此,使用上面第一个示例代码中的res.setEncoding('utf8')
来表示非压缩数据并不符合我的需求。
答案 0 :(得分:263)
如果您有一个Buffer
,则可以使用其toString
方法,该方法将使用特定编码将全部或部分二进制内容转换为字符串。如果您不提供参数,则默认为utf8
,但我在此示例中明确设置了编码。
var req = http.request(reqOptions, function(res) {
...
res.on('data', function(chunk) {
var textChunk = chunk.toString('utf8');
// process utf8 text chunk
});
});
如果您有上述问题中的流式缓冲区,其中第一个UTF8
(块)中可能包含多字节Buffer
字符的第一个字节,第二个字节可能包含在第二个字节中Buffer
然后您应该使用StringDecoder
。 :
var StringDecoder = require('string_decoder').StringDecoder;
var req = http.request(reqOptions, function(res) {
...
var decoder = new StringDecoder('utf8');
res.on('data', function(chunk) {
var textChunk = decoder.write(chunk);
// process utf8 text chunk
});
});
这样,不完整的字符的字节由StringDecoder
缓冲,直到所有必需的字节都写入解码器。
答案 1 :(得分:-4)
var fs = require("fs");
function readFileLineByLine(filename, processline) {
var stream = fs.createReadStream(filename);
var s = "";
stream.on("data", function(data) {
s += data.toString('utf8');
var lines = s.split("\n");
for (var i = 0; i < lines.length - 1; i++)
processline(lines[i]);
s = lines[lines.length - 1];
});
stream.on("end",function() {
var lines = s.split("\n");
for (var i = 0; i < lines.length; i++)
processline(lines[i]);
});
}
var linenumber = 0;
readFileLineByLine(filename, function(line) {
console.log(++linenumber + " -- " + line);
});