如何确定Bloomd何时缩放布隆过滤器?

时间:2016-09-04 18:54:53

标签: python web-scraping web-crawler bloom-filter

我正在使用Bloomd及其可扩展的bloom过滤器来存储/检查我们广泛的抓取工具的数十亿网址。它首先用于1-1.5亿个网址并且已经使用了大约16 GB的内存,但它似乎很快就会添加超过20亿个网址,我想了解Bloomd何时尝试扩展过滤器到32 GB(我们将服务器内存升级到64 GB或更多)。

“info”命令提供了一些数据,但我不确定哪个键代表什么,以及如何理解在扩展之前我可以添加多少个url。

这是我的“信息”命令结果

START
capacity 5461000000
checks 5893888032
check_hits 5400239954
check_misses 493648078
in_memory 1
page_ins 7
page_outs 6
probability 0.000100
sets 493648075
set_hits 493648016
set_misses 59
size 1859303638
storage 17205844037
END

另外,如果有人知道比使用可扩展布隆过滤器更好的方法,那么我会很感激。

1 个答案:

答案 0 :(得分:1)

您的过滤器仅使用其容量的34%(尺寸/容量= 1859303638/5461000000)。