在Hadoop Streaming作业中写出Parquet输出

时间:2016-06-02 19:48:29

标签: python hadoop-streaming parquet outputformat

有没有办法使用python将文本数据写入带有hadoop-streaming的镶木地板文件。

基本上,我有一个从我的IdentityMapper发出的字符串,我希望将其存储为镶木地板文件。

输入或示例将非常有用

1 个答案:

答案 0 :(得分:1)

我怀疑使用内置的Hadoop Streaming没有内置的方法(我无法找到),但是,根据您的数据集,您可以使用第三方软件包

https://github.com/whale2/iow-hadoop-streaming

要从JSON生成Parquet,您的流媒体代码会吐出json,并与AVRO架构一起使用ParquetAsJsonOutputFormat编写您的Parquet。

请注意,在此阶段,上面的包有一些限制(例如只能使用原始类型等)。

根据您的数据的性质,您也可以使用Kite SDK,如下所述:

https://dwbigdata.wordpress.com/2016/01/31/json-to-parquet-conversion/

在这里:

https://community.cloudera.com/t5/Kite-SDK-includes-Morphlines/JSON-to-Parquet/td-p/20630

干杯