hadoop - 从压缩文件向Hive加载数据的推荐方法是什么？

您必须以其格式加载数据。这意味着，如果您的文件是文本文件，那么您应该将它们加载为TextFile，如果您的文件是序列文件，则将它们加载为SEQUENCEFILE。

对于Hive，压缩格式无关紧要，因为它会使用文件的扩展名作为参考在飞行中解压缩（如果在Hadoop中正确配置了压缩编解码器）。

您正在分享的页面中的建议是，使用序列文件比使用压缩文本文件更好。这是因为Gzip文件不可拆分，如果你有一个非常大的Gzip文件，所有文件必须只用一个Mapper处理，不允许在群集节点之间并行分配工作。

然后，Hive的建议是将压缩文本文件转换为序列文件以避免该限制。这只是关于表现。

如果您的文件很小，那么无关紧要（＆lt; 1 Hadoop块大小 - 默认为128MB）。