来自goodreads的阿拉伯书评的无损压缩

时间:2018-03-16 11:45:11

标签: compression arabic lossless-compression

对于我大学的一个项目,我们需要压缩一个数据集,该数据集包含来自goodreads的63,000条评论,全部用阿拉伯语写成。

在做了一些初步研究后,我发现了LZW和Deflate算法的最佳候选者。但是,我不确定算法'使用非英文文本时,或者当它们应用于短中长文本(书评不那么长)时,性能会下降,因为这种文本通常不具备高重复性,而且我&# 39;我不确定是否对所有评论使用相同的字典是最好的方法。 这里的任何人解决了类似的问题,并且知道压缩数据的更好方法吗?

注意:重要的是压缩率,压缩时间无关紧要。

注意:压缩文件必须是二进制格式

1 个答案:

答案 0 :(得分:0)

没有任何关于英语知识的算法。他们只寻找重复的字符串和符号的偏斜统计。由于在多个字节中编码字符而不是单个字节中的字母,因此对后者可能有一些影响。对于前者,所有语言都重复单词和短语,因此您应该获得可比较的压缩。

我建议您使用文本的UTF-8表示,这将最好地允许标准压缩器将其面向字节的方法应用于压缩。