什么是镜像实时Cassandra集群进行分析任务的最佳方式?

时间:2015-03-27 12:59:30

标签: cassandra cassandra-2.0

假设一个具有多个DC的实时集群,那么设置一些专用于分析查询的节点的最佳方法是什么?

分析节点将托管在单独的(路由的)网络中,不得将任何数据写回生产节点。对于任何CL,也不得将它们计算在内。这尤其适用于将用于某些写入的EACH_QUORUM。分析节点可能随时处于脱机状态。

我所研究的所有解决方案似乎都有其自身的缺点。

1)拍摄制作快照并转移到独立分析群集

  • 重大更新延迟
  • 网络或磁盘上的IO密集型(例如rsync)
  • 由于不同的复制因素(3:1产品与分析)的重复数据很多
  • 分析群集上的SSTable行范围和群集拓扑不匹配可能需要使用sstableloader

2)使用write survey mode建立只读节点

  • 不是100%确定如何设置多个调查节点来覆盖整个环
  • 查询只能在本地对每个节点执行,因为它们不能成为协调执行的一部分

3)添加专用于分析的常规DC

  • 如果分析群集不可用,EACH_QUORUM将失败
  • 不应通过分析提供有关生产的查询
  • 需要一种方法来阻止分析用户在生产中执行查询或更新

可以使用的其他任何选项或现有工具?

0 个答案:

没有答案