hadoop - 在单个hbase表中创建多个hbase表或多个列系列的最佳方法是什么

在单个hbase表中创建多个hbase表或多个列系列的最佳方法是什么

时间：2014-06-09 13:11:21

标签： hadoop hbase

我的hbase行密钥不同，我需要聚合数据并单独存储。在这个用例中哪个是最好的方法

在单个hbase表中创建多个hbase表或多个列系列的最佳方法是什么

我正在改进我的问题

以下是我的用例。

我正在处理有零售商，类别，产品点击的网络日志。

我将上面的博客存储到一个带有单独的rowkey和相同列族的hbase表（Log）中防爆。
- 甲
for Retailer - IP | DateTime |希德|零售商
- 乙
分类 - IP | DateTime |希德|零售商|分类
- 下进行。
for Product - IP | DateTime |希德|零售商|类别|产品
从上表我计算Day点击并存储到其他hbase表中，如（Retailer_Day_cnt，Category_Day_Cnt，Product_Day_Cnt）

在这里，我的问题是将数据存储到hbase中的最佳方法是1个和2个案例，是单独的hbase表还是列族。

注意：在case1中，我只进行写操作，但在case2中，我将进行多次读写操作。

提前致谢苏伦德拉

3 个答案:

答案 0 :(得分：1)

从性能角度来看，列系列越少越好。由于表中的所有列族都是同时刷新的，即使某些列系列的数据非常少，因此刷新效率也会降低。。如果你的表写得很重，这将导致很多hfiles - ＆gt;压缩增加 - ＆gt;增加GC暂停，这可以使整个hbase非常慢，所以如果你真的不需要它们或者所有列族都有相同数量的数据，那么最好不要使用多列族。

在此处查找更多详情： Hbase Book