Question

在我的spark 1.5.0应用程序中，我尝试通过对其进行多次连接来处理原始DataFrame。

当我通过spark-submit运行成功编译的jar时，每当我尝试对DataFrame执行任何操作时都会收到此错误（例如show，{ {1}}，first）：

count

当我尝试在at org.apache.spark.unsafe.types.UTF8String.getBytes(UTF8String.java:234) at org.apache.spark.unsafe.types.UTF8String.toString(UTF8String.java:827) at org.apache.spark.sql.catalyst.expressions.GeneratedClass$SpecificMutableProjection.apply(Unknown Source) at org.apache.spark.sql.execution.aggregate.TungstenAggregationIterator$$anonfun$generateProcessRow$1.apply(TungstenAggregationIterator.scala:276) at org.apache.spark.sql.execution.aggregate.TungstenAggregationIterator$$anonfun$generateProcessRow$1.apply(TungstenAggregationIterator.scala:273) at org.apache.spark.sql.execution.aggregate.TungstenAggregationIterator.processInputs(TungstenAggregationIterator.scala:533)上执行相同的代码时，会发生一些奇怪的事情：

如果我在创建的spark-shell上调用任何操作，我会得到相同的例外，但只是第一次。如果我重试在同一个DataFrame上调用相同的操作，它将起作用。

这是一个已知问题，是否存在解决方法，或者我只是做错了什么？

这是结果DataFrame：

的架构

DataFrame

这是我用来创建root |-- id: string (nullable = true) |-- language: integer (nullable = false) |-- reccs: string (nullable = true)：

的代码

DataFrame

Spark DataFrame操作抛出NegativeArraySizeException

0 个答案: