如何在MapReduce作业中以拼花文件格式编写输出?

时间:2018-02-23 10:23:56

标签: hadoop mapreduce parquet file-format

我希望使用parquet-mr库在镶木地板文件格式中编写MapReduce输出,如下所示:

        job.setInputFormatClass(TextInputFormat.class); 
        job.setOutputFormatClass(ParquetOutputFormat.class);

        FileInputFormat.addInputPath(job, new Path(args[1]));
        ParquetOutputFormat.setOutputPath(job, new Path(args[2]));
        ParquetOutputFormat.setCompression(job, CompressionCodecName.GZIP);


        SkipBadRecords.setMapperMaxSkipRecords(conf, Long.MAX_VALUE);
        SkipBadRecords.setAttemptsToStartSkipping(conf, 0);

        job.submit();

但是,我不断收到这样的错误:

2018-02-23 09:32:58,325 WARN [main] org.apache.hadoop.mapred.YarnChild: Exception running child : java.lang.NullPointerException: writeSupportClass should not be null
    at org.apache.parquet.Preconditions.checkNotNull(Preconditions.java:38)
    at org.apache.parquet.hadoop.ParquetOutputFormat.getWriteSupport(ParquetOutputFormat.java:350)
    at org.apache.parquet.hadoop.ParquetOutputFormat.getRecordWriter(ParquetOutputFormat.java:293)
    at org.apache.parquet.hadoop.ParquetOutputFormat.getRecordWriter(ParquetOutputFormat.java:283)
    at org.apache.hadoop.mapred.ReduceTask$NewTrackingRecordWriter.<init>(ReduceTask.java:548)
    at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:622)
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:390)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)

我知道writeSupportClass需要传递/设置为类似

的东西
ParquetOutputFormat.setWriteSupportClass(job, ProtoWriteSupport.class);

但我可以问一下如何指定架构,实现ProtoWriteSupport或其他任何WriteSupport类?我需要采用哪些方法来实现,是否有任何以正确方式执行此操作的示例?

如果有帮助,我的MR工作输出应该看起来像&amp;以镶木地板格式存储:

Text      INTWRITABLE
 a            100 

1 个答案:

答案 0 :(得分:0)

尝试ParquetOutputFormat.setWriteSupportClass(job, ProtoWriteSupport.class);

ProtoWriteSupport<T extends MessageOrBuilder>

实现WriteSupport以编写协议缓冲区。

检查Javadoc以获取可用的嵌套默认类列表。

CDH Tutorial使用镶木地板文件格式与MapReduce,Hive,HBase和Pig。