在AWS EMR上运行Spark应用程序

时间:2014-11-18 04:26:06

标签: apache-spark emr

我正在尝试在AWS EMR上运行Spark应用程序。我按照http://blogs.aws.amazon.com/bigdata/post/Tx15AY5C50K70RV/Installing-Apache-Spark-on-an-Amazon-EMR-Cluster

上的说明操作

看起来Spark在引导期间正确安装。但是,当我的步骤运行时,我收到以下错误。

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/rdd/RDD
  at SparkCCF.main(SparkCCF.scala)
  at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
  at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
  at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
  at java.lang.reflect.Method.invoke(Method.java:606)
  at org.apache.hadoop.util.RunJar.main(RunJar.java:212)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.rdd.RDD
  at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
  at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
  at java.security.AccessController.doPrivileged(Native Method)
  at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
  at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
  at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
  ... 6 more

我加载了fat-jar(通过" sbt assembly&#34获得)和来自S3的应用程序所需的输入文件。我在Spark-1.1.0版本上构建了我的应用程序。 EMR集群在AMI 3.2.1和Hadoop 2.4上。

我们是否需要使用" Prebuilt for Hadoop 2.4"来构建Spark应用程序。或者只是Spark-1.1.0会起作用吗?

1 个答案:

答案 0 :(得分:-1)

UC-AMP实验室的说明要好一些。

https://github.com/amplab/spark-ec2#readme

相关问题