python - 在Hadoop Streaming作业中写出Parquet输出

时间：2016-06-02 19:48:29

标签： python hadoop-streaming parquet outputformat

有没有办法使用python将文本数据写入带有hadoop-streaming的镶木地板文件。

基本上，我有一个从我的IdentityMapper发出的字符串，我希望将其存储为镶木地板文件。

输入或示例将非常有用

答案 0 :(得分：1)

我怀疑使用内置的Hadoop Streaming没有内置的方法（我无法找到），但是，根据您的数据集，您可以使用第三方软件包

要从JSON生成Parquet，您的流媒体代码会吐出json，并与AVRO架构一起使用ParquetAsJsonOutputFormat编写您的Parquet。

请注意，在此阶段，上面的包有一些限制（例如只能使用原始类型等）。

根据您的数据的性质，您也可以使用Kite SDK，如下所述：

在这里：

干杯