juniversalchardet在www.wikipedia.org上有缺陷

时间:2015-07-28 01:41:03

标签: scala character-encoding chardet

我尝试使用juniversalchardet自动检测已保存网页的编码,我的第一个测试使用www.wikipedia.org,它根据HTTP响应标头使用UTF-8编码(此信息在被丢失后丢失保存到磁盘)

这是我的scala代码:

    val content = <...load Wikipedia.html from disk...>
    val charsetD = new UniversalDetector(null)
    charsetD.handleData(content, 0, content.length)
    val charset = charsetD.getDetectedCharset

然而,无论我加载什么,charset结果总是&#39; null&#39;,是因为juniversalchardet库有缺陷?或者我使用它错了?

1 个答案:

答案 0 :(得分:0)

问题解决了,charsetD.handleData(content,0,content.length)无法处理超过4096字节的批处理。在数据块上多次使用此功能后,一切正常。

相关问题