可以hive metastore基于列值虚拟分区数据而无需实际更改目录结构吗?

时间:2018-04-18 16:58:57

标签: hive bigdata data-partitioning hive-metastore hive-partitions

作为一个例子,考虑我有一个所有主要体育赛事的数据。下面给出了一个简要的

事件名称,日期,月份,年份,城市

此数据在年度,日期,月份的HDFS中实际构建。

现在我想基于其他一些列值创建虚拟分区,例如。 City.The数据将仅以年,日,月结构物理存储在HDFS中,但我的元数据会跟踪虚拟分区。

hive metastore可以帮我吗?

1 个答案:

答案 0 :(得分:0)

我不这么认为会发生。实际上,Hive中的分区意味着为不同的分区创建不同的目录。而Metastore只包含表的元数据。它不会控制实际数据。从技术上讲,当我们根据Hive表中的分区列进行查询时,查询将仅在该精确的分区目录上执行。因此虚拟分区没有改变hdfs结构,因为真实数据将在一个目录中,因此查询必须在整个数据上执行。因此技术上的优化根本不会发生。