compression - 来自goodreads的阿拉伯书评的无损压缩

来自goodreads的阿拉伯书评的无损压缩

时间：2018-03-16 11:45:11

标签： compression arabic lossless-compression

对于我大学的一个项目，我们需要压缩一个数据集，该数据集包含来自goodreads的63,000条评论，全部用阿拉伯语写成。

在做了一些初步研究后，我发现了LZW和Deflate算法的最佳候选者。但是，我不确定算法＆＃39;使用非英文文本时，或者当它们应用于短中长文本（书评不那么长）时，性能会下降，因为这种文本通常不具备高重复性，而且我＆＃ 39;我不确定是否对所有评论使用相同的字典是最好的方法。这里的任何人解决了类似的问题，并且知道压缩数据的更好方法吗？

注意：重要的是压缩率，压缩时间无关紧要。

注意：压缩文件必须是二进制格式

1 个答案:

答案 0 :(得分：0)

没有任何关于英语知识的算法。他们只寻找重复的字符串和符号的偏斜统计。由于在多个字节中编码字符而不是单个字节中的字母，因此对后者可能有一些影响。对于前者，所有语言都重复单词和短语，因此您应该获得可比较的压缩。

我建议您使用文本的UTF-8表示，这将最好地允许标准压缩器将其面向字节的方法应用于压缩。