将Parquet列读取为RDD行

时间:2016-11-11 17:06:25

标签: apache-spark dataframe rdd parquet

有没有办法在Parquet文件中将读作Spark RDD中的,将每列的全部内容实现为RDD元组中的列表?

我的想法是,对于需要在一组执行程序上运行不可分发的,仅内存的算法(处理整列数据)的情况,我希望能够并行化处理将每列的全部内容发送给执行者。我的初始实现,包括将Parquet文件作为DataFrame读取,然后将其转换为RDD并通过aggregateByKey转置行,结果证明在时间上过于昂贵(可能是由于需要进行广泛的改组)。

如果可能的话,我更愿意使用现有的实现,而不是滚动我自己的ParquetInputFormatReadSupport和/或RecordMaterializer的实现。

欢迎提供替代方法的建议。

0 个答案:

没有答案