在hive外部表中输出数TB的数据

时间:2017-03-29 06:02:43

标签: hadoop hive hdfs hiveql hadoop2

我有数TB的数据已在表格中处理和压缩。现在我想在不压缩put文件的情况下将数据转储到Hive外部表中。我们可以将数据放在外部表中的块中,还是有任何优化的方法。如果我一次性完成它需要太字节的空间,我想在那部分进行优化。

CREATE EXTERNAL TABLE <table name>
(uuid STRING, t1 STRING, t2 STRING) 
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe' 
LOCATION '${OUTPUT}';

INSERT OVERWRITE TABLE <table name> SELECT uuid, t1, t2 from <table name>;

请建议。它总是耗尽hdfs内存。

注意:如果我启用压缩,那么我不会发现任何问题。 set mapreduce.map.output.compress.codec = org.apache.hadoop.io.compress.GzipCodec;
set mapred.output.compress = true;
设置hive.exec.compress.output = true;
组 mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec;

0 个答案:

没有答案