如何在Hive中解决(太多)分区问题

时间:2016-03-21 15:58:27

标签: hadoop hive bigdata

如果我在单个表中有更多分区,会出现什么问题。我打算在hive中创建一个历史表,它将包含7到8年的数据,我还打算用日期键对表进行分区。在这种情况下,我的表将有大约2500到3500个分区。这个over partition会不会给我的namenode和datanode带来问题?每个条目分区条目将占用多少内存到namenode?由于过度分区,我将遇到什么问题?如果我将面临记忆问题,请向我建议解决方案。如果您发现任何关于此的好文章,请给我链接。 有没有其他方法可以解决这个问题?

由于 Venkadesan E

1 个答案:

答案 0 :(得分:0)

我不认为你正在努力过度分区,3.5K仍然听起来不错。分区数量较多的唯一问题是查询开始运行之前的时间,我想这是因为从Metastore接收分区元数据。我们遇到了10k分区的真正减速,3.5k应该适合你

相关问题