Question

我有一张表格如下：

val question = sqlContext.createDataFrame(Seq((1, Seq("d11","d12","d13")), (2, Seq("d21", "d22", "")))).toDF("Id", "Dates")
+---+---------------+
| Id|          Dates|
+---+---------------+
|  1|[d11, d12, d13]|
|  2|   [d21, d22, ]|
+---+---------------+

“日期”列包含一个字符串数组。我想创建一个可以返回索引的udf，如果数组包含目标字符串。我试着像这样写一个udf：

def indexOf(s: String) = udf((n: Array[String]) => if (n.contains(s)) 
n.indexOf(s) else -1)

question.withColumn("index", indexOf("d11")(question("Dates"))).show()

然而，我得到了这样一个错误的消息：

org.apache.spark.SparkException: Failed to execute user defined function($anonfun$indexOf$1: (array<string>) => int)

这里有什么可怕的错误吗？

更新：我还发现了这样一个错误的消息：

Caused by: java.lang.ClassCastException: scala.collection.mutable.WrappedArray$ofRef cannot be cast to [Ljava.lang.String;

所以我修改了我的udf：

def indexOf(s: String) = udf((n: Seq[String]) => if (n.contains(s)) n.indexOf(s) else -1)

将“Array [String]”更改为“Seq [String]”，它现在正在工作〜嗨，Nader Hadji Ghanbari，谢谢你的建议〜

Answer 1

在Spark中，Array表示为WrappedArray，类似于带有Wrapper的数组。要获得工作，您可以将签名更改为Seq，WrappedArray或List。

def indexOf(s: String) = udf((n: Seq[String]) => 
    if (n.contains(s)) n.indexOf(s) else -1)

或者

def indexOf(s: String) = udf((n: WrappedArray[String]) => 
    if (n.contains(s)) n.indexOf(s) else -1)

或者

def indexOf(s: String) = udf((n: List[String]) => 
    if (n.contains(s)) n.indexOf(s) else -1)

希望这有帮助！

如何创建UDF以在数组列

1 个答案: