如何使用固定大小的键将行拆分为(键,值)对

时间:2016-03-04 03:22:06

标签: apache-spark pyspark apache-spark-sql spark-streaming

我是Apache Spark的新手,我有一个文件,其中前10个字符是键的每个句子,休息是一个值,如何对其应用spark排序,将每个句子的前10个字符提取为一键和休息作为数据,所以最后得到一个[key,value]对Rdd作为输出。

1 个答案:

答案 0 :(得分:1)

maptake的{​​p> drop可以解决问题:

rdd.map(line => (line.take(10), line.drop(10)))

类别:

val sorted = rdd.sortByKey

准备输出:

val lines = sorted.map { case (k, v) => s"$k $v" }