INSERT INTO会生成一个新文件

时间:2012-08-22 11:51:37

标签: hadoop hive

我正在以文本格式在外部表上使用配置单元。我每小时填充一次这个表,但是我按月对表进行分区(数据集相对较小)。我想每小时将新数据插入到某些分区中。

INSERT INTO子句导致在包含旧数据的现有分区中创建新文件。这种方式在月底我将在每个分区中有大约700个小文件。

HIVE是否有办法将数据附加到分区中的旧文件中(不对旧数据使用UNION ALL)?

1 个答案:

答案 0 :(得分:1)

不幸的是,目前这是不可能的。希望随着文件追加补丁这些天获得更多的牵引力,它最终将成为附加到现有文件的新功能。

我认为这是Hive的主要缺点之一....特别是当你开始处理更小的插入时。

相关问题