Cassandra数据文件比预期的大很多

时间:2016-01-25 14:33:32

标签: cassandra

我刚做了一个实验,其中我加载了大约十几个csv文件,重约5.2 GB(压缩)。将它们上传到Cassandra后,它们占用了64 GB! (实际上大约128 GB,但这是由于复制因子为2)。

坦率地说,我预计Cassandra的数据甚至会低于最初的5.2 GB csv,因为: 1. Cassandra应该能够以二进制格式而不是ascii存储数据(主要是数字) 2. Cassandra应该将单个文件拆分为其列组成部分并显着改善压缩

我是Cassandra的新手,这是一个实验。我完全有可能误解产品或错误配置产品。

预计5.2 GB csvs最终会成为64 GB的cassandra文件吗?

编辑:其他信息:

[cqlsh 5.0.1 | Cassandra 2.1.11 | CQL spec 3.2.1 | Native protocol v3]


[~]$ nodetool status
Datacenter: DC1
===============
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address      Load       Tokens  Owns    Host ID                                 Rack
UN  xx.x.xx.xx1  13.17 GB   256     ?       HOSTID  RAC1
UN  xx.x.xx.xx2  14.02 GB   256     ?       HOSTID  RAC1
UN  xx.x.xx.xx3  13.09 GB   256     ?       HOSTID  RAC1
UN  xx.x.xx.xx4  12.32 GB   256     ?       HOSTID  RAC1
UN  xx.x.xx.xx5  12.84 GB   256     ?       HOSTID  RAC1
UN  xx.x.xx.xx6  12.66 GB   256     ?       HOSTID  RAC1

du -h [director which contains sstables before they are loaded]: 67GB

0 个答案:

没有答案