bigdata - 谓词下推vs布隆过滤器

Bloom过滤器用于谓词下推。谓词下推主要使用列统计信息来跳过行组并最大程度地减少读取的行数。如果使用Bloom过滤器，则谓词下推可以最大程度地减少进一步读取的行数。

因为 ORC 文件是类型感知的，所以作者会为类型选择最合适的编码，并在写入文件时构建内部索引。

谓词下推使用这些索引来确定需要为特定查询读取文件中的哪些条带，并且行索引可以将搜索范围缩小到 10,000 行的特定集合

关于谓词下推的一个很好的定义可以在 here 和：

ORC 在每个文件中提供三级索引：

列统计信息始终包含值的计数以及是否存在空值。大多数其他原始类型包括最小值和最大值，对于数字类型，包括总和。 从 Hive 1.2 开始，索引可以包含布隆过滤器，从而提供更具选择性的过滤器。

ORC 谓词下推在 Spark SQL 中默认启用。

“布隆过滤器是一种节省空间的概率数据结构，由 Burton Howard Bloom 于 1970 年构思，它用于测试元素是否是集合的成员。误报匹配是可能，但假阴性不是——换句话说，查询返回“可能在集合中”或“绝对不在集合中”。”

另见：