我正在浏览Google Dremel的white paper。我开始知道它将复杂数据转换为柱状数据布局。
此数据存储在哪个位置?
由于Drill没有中央元数据存储库,我认为它必须是内存。
因此,当我有数十亿行时,Drill如何处理这些数据?
答案 0 :(得分:2)
要从数十亿行获得完整,一致的查询结果,您将使用连接到多个Drillbits的分布式文件系统,通过将文件复制到每个节点来模拟分布式文件系统,或使用NFS卷,例如亚马逊弹性文件系统。 Drill使用多种技术执行大数据的高性能查询,包括:
有关详细信息,请参阅http://drill.apache.org/docs/performance/。