Spark DataFrame操作抛出NegativeArraySizeException

时间:2016-11-24 10:56:00

标签: scala apache-spark spark-dataframe

在我的spark 1.5.0应用程序中,我尝试通过对其进行多次连接来处理原始DataFrame

当我通过spark-submit运行成功编译的jar时,每当我尝试对DataFrame执行任何操作时都会收到此错误(例如show,{ {1}},first):

count

当我尝试在at org.apache.spark.unsafe.types.UTF8String.getBytes(UTF8String.java:234) at org.apache.spark.unsafe.types.UTF8String.toString(UTF8String.java:827) at org.apache.spark.sql.catalyst.expressions.GeneratedClass$SpecificMutableProjection.apply(Unknown Source) at org.apache.spark.sql.execution.aggregate.TungstenAggregationIterator$$anonfun$generateProcessRow$1.apply(TungstenAggregationIterator.scala:276) at org.apache.spark.sql.execution.aggregate.TungstenAggregationIterator$$anonfun$generateProcessRow$1.apply(TungstenAggregationIterator.scala:273) at org.apache.spark.sql.execution.aggregate.TungstenAggregationIterator.processInputs(TungstenAggregationIterator.scala:533) 上执行相同的代码时,会发生一些奇怪的事情:

如果我在创建的spark-shell上调用任何操作,我会得到相同的例外,但只是第一次。 如果我重试在同一个DataFrame上调用相同的操作,它将起作用。

这是一个已知问题,是否存在解决方法,或者我只是做错了什么?

这是结果DataFrame

的架构
DataFrame

这是我用来创建root |-- id: string (nullable = true) |-- language: integer (nullable = false) |-- reccs: string (nullable = true)

的代码
DataFrame

0 个答案:

没有答案