设置变量上列的平均值/平均值

时间:2017-08-10 08:40:28

标签: python apache-spark pyspark

我有一个数据框,我想获得一列的平均值。如果我得到这样的话:

avg_NoPItems = df.groupBy().mean('NoPItems').collect()

后来我无法与任何值进行比较,因为我得到了一个数据框对象。那么,我怎样才能得到平均值而不是数据帧?

PD:我试过这个但是没有工作:

avg_NoPItems = df.groupBy().mean('NoPItems').collect()[0]

1 个答案:

答案 0 :(得分:1)

  1. df.groupBy()。mean(' NoPItems')。collect()将返回行对象列表。

  2. df.groupBy()。mean(' NoPItems')。collect()[0]将返回第一个Row对象。

  3. df.groupBy()。mean(' NoPItems')。collect()[0] [0]将返回第一行内的第一个值。更改索引以获取所需的值。

  4. 希望这有帮助。

    此致

    Neeraj