apache-spark - 如何获取PySpark DataFrame中每行的最小值

我想在PySpark DataFrame中计算每行的最小值。

在NumPy中，它可以写

df.min(axis=1)

但我不知道如何在PySpark DataFrame中做同样的事情。

e.g。我创建了数据帧（我的真实数据大约是1,000,000,000 * 1,000cols）：

df = sqlContext.createDataFrame([(10, 10, 1 ), (200, 2, 20), (3, 30, 300), (400, 40, 4)], ("c1", "c2", "c3"))


+---+---+---+
| c1| c2| c3|
+---+---+---+
| 10| 10|  1|
|200|  2| 20|
|  3| 30|300|
|400| 40|  4|
+---+---+---+

我希望输出如下：

+---+---+---+---+
| c1| c2| c3|min|
+---+---+---+---+
| 10| 10|  1|  1|
|200|  2| 20|  2|
|  3| 30|300|  3|
|400| 40|  4|  4|
+---+---+---+---+

如何获取PySpark DataFrame中每行的最小值

0 个答案: