Hbase:只拥有每个单元格的第一个版本

时间:2015-06-06 10:11:52

标签: hadoop hbase

我想知道如何以仅存储每个单元的第一个版本的方式配置Hbase?假设以下Htable:

row_key          cf1:c1           timestamp
----------------------------------------
1                  x                 t1

("1","cf1:c2",t2)置于ColumnDescriptor.DEFAULT_VERSIONS = 2方案后,提到的Htable变为:

row_key          cf1:c1           timestamp
----------------------------------------
1                  x                 t1
1                  x                 t2

其中t2>t1

我的问题是如何以第一版单元格是唯一可以存储和检索的版本的方式更改此方案。我的意思是在提供的示例中,唯一的版本是't1'一个!因此,我想以忽略重复插入的方式更改hbase。

我知道将HERS设置为1并基于Long.MAX_VALUE - System.currentTimeMillis()设置将解决我的问题,但我不知道它是最好的解决方案吗?!将tstamp更改为Long.MAX_VALUE - System.currentTimeMillis()有什么问题?它有任何性能问题吗?

2 个答案:

答案 0 :(得分:3)

我能想到两种策略:

1。一个版本+倒置时间戳

将Htable设置为VERSIONS为1,基于Long.MAX_VALUE - System.currentTimeMillis()设置放置通常会有效,并且没有任何重大的性能问题。

写信:

  • 当同一个单元的多个版本写入hbase时,在任何时间点,所有版本都将被写入(对性能没有任何影响)。压缩后,只有具有最高时间戳的单元格才能存活。
  • 此方案中具有最高时间戳的单元格是由System.currentTimeMillis()的最低值的客户端编写的单元格。应该注意的是,这可能实际上并不是首先尝试写入单元的机器,因为hbase客户端可能不同步。

阅读:

  • 当发现同一单元格的多个版本时,此时将进行修剪。这可以在任何时候发生,因为您的写入可以在任何时间发生,即使在压缩之后也是如此。这对性能影响很小。

2。 checkAndPut

要通过原子性获得真正的排序,意味着只有第一个到达区域服务器的写入将成功,您可以使用checkAndPut操作:

来自docs

public boolean checkAndPut(byte[] row, byte[] family, byte[] qualifier, byte[] value, Put put) throws IOException
     

以原子方式检查行/系列/限定符值是否与预期值匹配   值。如果是的话,它会添加看跌期权。如果传递的值为null,则   检查是否缺少列(即:不存在)`

因此,通过将value设置为nullPut只有在单元格不存在时才会成功。如果您的Put成功,那么返回值将为true。这给出了真正的原子性,但处于写入性能成本。

写信:

  • 设置行锁定,并在检查存在之前在内部发出Get。一旦确认不存在,则发出看跌期权。您可以想象,这对每次写入都有相当大的性能影响,因为现在每次写入都涉及读取和锁定。
  • 在压缩过程中不需要发生任何事情,因为只有一个Put会使它成为hbase。这始终是第一个到达区域服务器的Put。
  • 应该注意的是,使用checkAndPut无法批量处理这类checkAndMutate操作,因为每个Put都需要自己检查。这意味着每个put都需要是一个单独的请求,这意味着您在批量写入时也将支付延迟成本。

阅读:

  • 只有一个版本会进入Hbase,因此这里没有任何影响。

策略之间的选择:

如果真正的顺序真的很重要,或者您可能需要在写入hbase之后或之前读取每一行(例如,为了确定您的写入是否成功),那么您最好使用策略2,否则,在所有其他情况下,我建议使用策略1,因为它的写入性能要好得多。在这种情况下,只需确保您的客户端正确同步。

答案 1 :(得分:0)

您可以使用Put插入Long.MAX_VALUE - timestamp并将表配置为仅存储1个版本(最大版本=> 1)。这样,扫描将返回第一个(最早的)Put,因为所有连续Puts的时间戳值都会更小。