我正在AWS EMR上运行Apache Hbase集群。我有一个表,它是一个单列族,75,000列和50,000行。我试图获取单个行的所有列值,并且当该行不稀疏且具有75,000个值时,返回时间非常慢-从数据库中获取数据几乎要花2.5秒。我正在从运行Happybase的Lambda函数查询表。
import happybase
start = time.time()
col = 'mycol'
table = connection.table('mytable')
row = table.row(col)
end = time.time() - start
print("Time taken to fetch column from database:")
print(end)
该如何做才能更快?这似乎非常慢-返回有效负载为75,000个值对,并且只有〜2MB。它应该比2秒快得多。我正在寻找毫秒级的返回时间。
我的BLOCKCACHE大小为8194kb,ROW类型的BLOOMFILTER,并且在此表上启用了SNAPPY压缩。