将数据加载到Cassandra列族中的最快方法是什么

时间:2015-10-28 16:42:31

标签: csv cassandra bulk-load loaddata

我创建了一个Cassandra列族,我需要从该列族的CSV文件中加载数据。 csv文件的容量为15 Gb。

我正在使用CQL' COPY FROM'命令,但这需要很长时间才能加载数据。 从csv文件向Cassandra加载大量数据的最佳/最简单方法是什么?

2 个答案:

答案 0 :(得分:5)

CQLSH内置的CSV文件副本非常简单,适用于中小型数据集。你没有提到你正在使用的Cassandra版本,但2.1.5(CASSANDRA-8225)中有很多性能改进。

对大型数据有良好效果的替代工具是cassandra-loader。您可以尝试使用文件的一个子集(如1000行)来确认它是否有效,然后尝试使用整个文件来查看性能。

答案 1 :(得分:3)

使用sstableloader。查看this blog post。您需要使用相同的C *架构将CSV文件解析为sstables,并将它们批量加载到C *中。