如何最大限度地减少Spark数据帧加入的混乱?

时间:2015-08-10 11:08:43

标签: apache-spark

我有两个像这样的数据框

  student_rdf = (studentid, name, ...)
  student_result_rdf = (studentid, gpa, ...)

我们需要加入这两个数据帧。我们现在这样做,

student_rdf.join(student_result_rdf, student_result_rdf["studentid"] == student_rdf["studentid"])

所以很简单。但是它会在工作节点之间创建大量数据,但是由于连接键是相似的,并且如果数据帧可以(理解partitionkey)使用该键(studentid)进行分区,那么根本不应该进行任何混乱。由于类似的数据将驻留在类似的节点中。可能吗?

当我从input.And读取数据帧时,我找到了基于列分区数据的方法。如果Spark有可能理解两个数据帧的两个分区键是相似的,那么如何?

0 个答案:

没有答案