将多个Hive表组合为Hadoop中的单个表

时间:2018-07-26 07:07:25

标签: hadoop join hive union-all hadoop-partitioning

嗨,我在15-20张桌子附近有多个Hive表。所有表都是通用模式。我需要将所有表合并为一个表。应从报表工具中查询单个表,因此性能也需要注意。

我试图这样。

create table new as
select * from table_a
union all
select * from table_b

还有其他方法可以更有效地组合所有表。任何帮助将不胜感激。

2 个答案:

答案 0 :(得分:0)

如果将“ hive.exec.parallel”设置为true,Hive将并行处理。通过“ hive.exec.parallel.thread.number”,您可以指定并行线程的数量。这样可以提高整体效率。

答案 1 :(得分:0)

如果您尝试将table_A和table_b合并为一个,则最简单的方法是使用UNION ALL运算符。您可以在此处找到语法和用例-https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Union