Spark Dataframe - 组织数据帧的最佳方式

时间:2015-08-04 10:11:49

标签: apache-spark spark-dataframe

我目前使用databricks库将CSV文件加载到Dataframes中。

我正在寻找使用特定密钥对我加载的数据帧进行cogroup的最佳通用方法,因为cogroup操作仅适用于PairRDD。

我发现这篇文章为Dataframes实现了一个cogroup功能,但我想有一些不同的方法:

https://gist.github.com/ahoy-jon/b65754cde98cc48b9b38

你有没有遇到过这种情况?

感谢。

0 个答案:

没有答案