Hbase Map减少和索引

时间:2011-12-30 11:45:53

标签: hadoop mapreduce hbase

我正在抓取不同的行业数据并将数据存储到单个hbase表中。例如,我正在抓取电子和计算机行业,并存储在名为“industry_tbl”的表中。现在我想运行一个地图减少数据集,即电子和计算机行业,并生成减少器输出与收集的不同数据集,但目前hbase正在采取两个行业的整个数据,并给我减少的结果,我无法通过行业来区分。

有关如何解决此问题的任何帮助或想法?

3 个答案:

答案 0 :(得分:0)

将行业作为您在映射器中发出的密钥的一部分。

答案 1 :(得分:0)

使行业成为您的hbase密钥中最重要的部分,并将其传递给您为map-reduce定义的SCAN

答案 2 :(得分:0)

您还可以在Hbase表上执行列扫描。 为此,请将特定行业的所有信息放在特定的行业列族中。

例如,我的行业表可能看起来像这样。

对于给定的行:cf1-science cf2-technology等。

这样,您的行业数据会在某些地区进行严格分区,从而缩短查询时间。

现在我只想使用Scan api查询并包含一个特定的列系列进行扫描。

因此扫描将仅返回与特定行业相关的详细信息。

在这种情况下,行仍将保持与之前相同的行。

希望这个解释有所帮助。