我应该尝试最小化与Spark Dataframe API的连接吗?

时间:2016-09-08 09:28:36

标签: apache-spark spark-dataframe

我正在使用Spark 1.5.1。使用DataFrame API。

假设有4个DF(A,B,C,D)作为输入,我需要计算3列的输出DF。 第1列计算使用A,B,C 第2列计算使用A,B,D 第3列计算使用B,C

我有2个解决方案:

  1. 避免将A,B,C,D连接在一起
  2. 将A,B,C,D连接在一起
  3. 1.我会写更多的代码,但我希望性能提升(除非催化剂能比我更好地完成工作)。

    什么是最佳选择?

0 个答案:

没有答案