用于浏览数据的Hbase Schema / Rowkey设计?

时间:2014-05-26 06:27:07

标签: hbase

我们计划在其中一个项目中使用HBase。

我们从内部系统获取一些浏览信息,数据格式如下。

我们的要求是我们必须开发3种不同类型的搜索

  1. D IP +日期范围(开始日期和结束日期)
  2. S IP +日期范围(开始日期和结束日期)
  3. 网址+日期范围(开始日期和结束日期)
  4. 我正在考虑创建3个HBase表,如

    1. 行键为DestinationIP + DateTime
    2. 行密钥为SourceIP + DateTime
    3. 行键为URL + DateTime
    4. 如果我采用上述方法,则会花费大量空间来存储这些数据。

      S IP            DateTime       Method URL        - ResponseCode - D IP -
      176.204.134.111 20140421093842 GET    http://googleads.g.doubleclick.net/pagead/adview?ai=CAbmt4K5UU47XB5GS8wPOi4C4CKH1-ZwCkbiU7inAjbcBEAEgptSKH1D0-ev7B2CRdsgBAakC4V3k_lZFkj6oAwHIA4oEqgSQAU_QtfygurroekV-h5dYCoVP70qKDV1sAkiI60NNZiQ1wICQkqb5XMC3TllLKrhD0KxX0kb9-LnGkCDTqGmDE3Do-UdLGIyluqQ7MwoAcuTJMUajYKOflKPd2ZDj6RlKUAI9pbdkb96-k-XTVpON9rjUM2vUkvjwW3BwSfQk656GjoyUcEwsjwWId7p7obHcTsAEqf_DzQKSBQQIBBgBkgUECAUYBJAGAdgGAoAHueeCC5gHAQ&sigh=7zrG0DRVvMA 0 TCP_MISS/200 - 173.194.66.155 -  0
      2.50.165.129    20140421093842 GET    http://www.alquds.co.uk/wp-content/uploads/2014/04/1217.jpg 0 TCP_MISS/200 - 46.165.251.78 -  0
      

      针对上述要求,什么是良好的架构设计?

1 个答案:

答案 0 :(得分:0)

考虑使用OpenTSDB,它针对小型键值时间序列数据的存储进行了优化。

即使你不选择使用它,也一定要阅读this slide deck讨论进入它的架构设计决策。