如何获取PySpark DataFrame中每行的最小值

时间:2017-01-28 05:59:49

标签: apache-spark pyspark spark-dataframe

我想在PySpark DataFrame中计算每行的最小值。

在NumPy中,它可以写

df.min(axis=1)

但我不知道如何在PySpark DataFrame中做同样的事情。

e.g。 我创建了数据帧(我的真实数据大约是1,000,000,000 * 1,000cols):

df = sqlContext.createDataFrame([(10, 10, 1 ), (200, 2, 20), (3, 30, 300), (400, 40, 4)], ("c1", "c2", "c3"))


+---+---+---+
| c1| c2| c3|
+---+---+---+
| 10| 10|  1|
|200|  2| 20|
|  3| 30|300|
|400| 40|  4|
+---+---+---+

我希望输出如下:

+---+---+---+---+
| c1| c2| c3|min|
+---+---+---+---+
| 10| 10|  1|  1|
|200|  2| 20|  2|
|  3| 30|300|  3|
|400| 40|  4|  4|
+---+---+---+---+

0 个答案:

没有答案
相关问题