计算数十亿字符串的频率

时间:2016-08-22 19:01:55

标签: string word-frequency bloom-filter

我在postgresql数据库中存储了30亿个字符串。我想制作频率图,这样我就可以丢弃少于100次或超过100,000次的字符串。我应该使用什么样的数据结构?我正在考虑某种布隆过滤器。

1 个答案:

答案 0 :(得分:0)

您可以使用HyperLogLog,它可以让您估算内存占用较少的多集的基数。

这是一个example,它使用java-hll,即HyperLogLog的java实现。如果java不适合你,你可以搜索github用于其他语言的实现。

或者,您可以使用standalone implementation