Question

我将下面的表存储在Hive中，名为ExampleData：

+--------+-----+---|
|Site_ID |Time |Age|
+--------+-----+---|
|1       |10:00| 20|
|1       |11:00| 21|
|2       |10:00| 24|
|2       |11:00| 24|
|2       |12:00| 20|
|3       |11:00| 24|
+--------+-----+---+

我需要能够按网站处理数据。不幸的是，按网站划分它是行不通的（有超过10万个网站，所有网站都有相当少的数据）。

对于每个站点，我需要分别选择Time列和Age列，并使用它来输入一个函数（理想情况下我想在执行程序上运行，而不是驱动程序）

我有一个关于我认为我希望它如何工作的存根，但是这个解决方案只能在驱动程序上运行，所以它非常慢。我需要找到一种编写它的方法，以便它运行一个执行程序级别：

// fetch a list of distinct sites and return them to the driver 
//(if you don't, you won't be able to loop around them as they're not on the executors)
val distinctSites = spark.sql("SELECT site_id FROM ExampleData GROUP BY site_id LIMIT 10")
.collect

val allSiteData = spark.sql("SELECT site_id, time, age FROM ExampleData")

distinctSites.foreach(row => {
    allSiteData.filter("site_id = " + row.get(0))
    val times = allSiteData.select("time").collect()
    val ages = allSiteData.select("ages").collect()
    processTimesAndAges(times, ages)
})

def processTimesAndAges(times: Array[Row], ages: Array[Row]) {
    // do some processing
}

我尝试在所有节点上播放distinctSites，但这并不能证明是有成效的。

这似乎是一个如此简单的概念，但我花了几天时间研究这个问题。我是Scala / Spark的新手，如果这是一个荒谬的问题，请道歉！

非常感谢任何建议或提示。

Answer 1

RDD API提供了许多函数，可用于以低级别重新分区/ repartitionAndSortWithinPartitions开始并以多个* byKey方法（combineByKey，groupByKey，reduceByKey等）结束的组中执行操作。

示例：

rdd.map( tup => ((tup._1, tup._2, tup._3), tup) ).
  groupByKey().
  forEachPartition( iter => doSomeJob(iter) )

在DataFrame中你可以使用聚合函数，GroupedData类为最常用的函数提供了许多方法，包括count，max，min，mean和sum

示例：

   val df = sc.parallelize(Seq(
      (1, 10.3, 10), (1, 11.5, 10),
      (2, 12.6, 20), (3, 2.6, 30))
    ).toDF("Site_ID ", "Time ", "Age")

df.show()

+--------+-----+---+
|Site_ID |Time |Age|
+--------+-----+---+
|       1| 10.3| 10|
|       1| 11.5| 10|
|       2| 12.6| 20|
|       3|  2.6| 30|
+--------+-----+---+


    df.groupBy($"Site_ID ").count.show

+--------+-----+
|Site_ID |count|
+--------+-----+
|       1|    2|
|       3|    1|
|       2|    1|
+--------+-----+

注意：正如你所提到的解决方案非常慢，你需要使用分区，在你的情况下，范围分区是不错的选择。

Spark2 Dataframe / RDD进程分组

1 个答案: