hadoop RC文件格式:合并hdfs中的小文件

时间:2013-10-21 14:59:48

标签: hadoop hive file-format

我正在寻找组合Map-reduce程序生成的小RC文件的方法。 什么是最好的小RC文件合并到大型RC文件。

1 个答案:

答案 0 :(得分:0)

您可以尝试使用getmerge命令。这会将源目录和目标文件作为输入,并将源目录中的文件连接到目标文件中。

例如,如果Hive表名是search_combined_rc,则可以将组合的rc文件合并到一个文件中。

hadoop fs -getmerge /user/hive/warehouse/dev.db/search_combined_rc/ / localdata / destinationfilename

由于无法使用打开典型序列文件的工具打开RCFile,因此可以尝试使用 rcfilecat 工具显示RCFiles的内容。您需要将文件从本地目录移回HDFS。

hive --service rcfilecat / hdfsfilelocation

相关问题