Question

这应该很容易但......使用Spark 1.6.1 .... 我有DataFrame＃1，列A，B，C。值：

然后我创建了一个新的数据框，其中包含一个新的列D：

DataFrame df2 = df1.withColumn("D", df1.col("C"));

到目前为止还不错，但实际上我希望D列中的值是有条件的，即：

// pseudo code
if (col C = "A") the col D = "X"
else if (col C = "B") the col D = "Y"
else col D = "Z"

然后我会删除C列并将D重命名为C.我已经尝试查看Column功能但似乎没有任何内容符合要求。我想过使用df1.rdd（）。map（）并迭代这些行，但除了实际上并没有让它工作之外，我有点认为DataFrames的重点是要远离RDD抽象？

不幸的是我必须用Java做这件事（当然Spark和Java并不是最佳的!!）。似乎我错过了显而易见的东西，很高兴在提出解决方案时被证明是个白痴！

Answer 1

我相信您可以使用when来实现这一目标。此外，您可能可以直接替换旧列。对于您的示例，代码将类似于：

import static org.apache.spark.sql.functions.*;

Column newCol = when(col("C").equalTo("A"), "X")
    .when(col("C").equalTo("B"), "Y")
    .otherwise("Z");

DataFrame df2 = df1.withColumn("C", newCol);

有关when的详细信息，请查看Column Javadoc。

Answer 2

感谢Daniel，我已经解决了这个问题：）

缺少的部分是sql函数的静态导入

import static org.apache.spark.sql.functions.*;

我必须尝试过一百万种不同的使用方式，但由于我没有进行导入，因此遇到了编译失败/运行时错误。一旦导入丹尼尔的答案就在现场！

Answer 3

您也可以使用udf来完成同样的工作。只需编写一个简单的if then else结构

import org.apache.spark.sql.functions.udf
val customFunct = udf { d =>
      //if then else construct
    }

val new_DF= df.withColumn(column_name, customFunct(df("data_column")))

使用基于第一个数据框Java

3 个答案: