具有多个值的PySpark reduceByKey

时间:2016-09-15 20:34:28

标签: python apache-spark pyspark

所以尽管我的标题与此问题相同:PySpark reduceByKey on multiple values

我无法得到我想做的工作的答案。

A = sc.parallelize([("a", (1,0)), ("b", (4,2)),("a", (11,2)), ("b", (4,10))])
A.reduceByKey(lambda x, y: x[0]+y[0],x[1]+y[1]).collect()

给我错误:

name 'x' is not defined

这是怎么回事?

1 个答案:

答案 0 :(得分:0)

我发现了问题。一些括号:

A.reduceByKey(lambda x, y: (x[0]+y[0] ,x[1]+y[1])).collect()