很容易使用Spark Scala API定义自定义转换,并使用this blog post中所述的transform方法调用它们:
def withGreeting()(df: DataFrame): DataFrame = {
df.withColumn("greeting", lit("hello world"))
}
df.transform(withGreeting())
如何使用Spark Java API定义和调用自定义转换。这是the Java documentation中的数据集转换方法的方法签名:
transform(scala.Function1<Dataset<T>,Dataset<U>> t)
Java Dataset转换方法是否将Scala函数用作参数?请提供示例Java转换,以及如何在响应中使用transform
调用代码。