如何将数据从Cassandra加载到HDFS?

时间:2013-11-27 10:04:21

标签: hadoop cassandra hive apache-pig hdfs

我有一个驻留在Apache Cassandra中的数据,我想使用hadoop生态系统工具执行map / reduce作业。

如何将数据从Cassandra加载到HDFS?

除了Cassandra存储处理程序/ brisk之外是否有任何存储处理程序?

3 个答案:

答案 0 :(得分:2)

Netflix推出了一款名为Aegisthus的新工具,试图解决这个问题。

  

Cassandra的批量数据管道。 Aegisthus实现了一个读者   对于SSTable格式并提供map / reduce程序来创建   压缩列系列中包含的数据的快照。

答案 1 :(得分:1)

考虑一下这个项目pygmalion。这将允许您将数据从Cassandra导出到HDFS,然后使用Pig latin进行查询。

答案 2 :(得分:0)

你可以通过多种方式做到这一点。编写MapReduce作业以从Cassandra读取数据并将其写入HDFS或编写PigLatin脚本来执行此操作。有关详细信息,请参阅 this