如何在Cloud Dataproc上安装Apache Spark的自定义版本

时间:2018-04-12 07:54:27

标签: apache-spark google-cloud-platform google-cloud-dataproc

出于这样或那样的原因,我想安装Apache Spark版本Google Cloud Dataproc与{{3}}版本不同的版本。如何安装Spark的自定义版本,同时又保持与Cloud Dataproc工具的兼容性?

2 个答案:

答案 0 :(得分:3)

通常,您应该能够在Dataproc上安装Spark的自定义版本,并保持与Cloud Dataproc工具的兼容性(主要是Cloud Dataproc作业)。

要做到这一点,你应该:

  1. /usr/local/lib/spark/opt/spark而非用户主目录
  2. 中安装spark
  3. 不要修改用户.bashrc
  4. 使用apt-get remove
  5. 卸载Cloud Dataproc提供的spark版本
  6. 符号链接/usr/local/bin/spark-submit到提供的二进制文件(这是Cloud Dataproc作业API与新的Spark安装一起使用所必需的)
  7. 重新使用Cloud Dataproc提供的/etc/spark/conf

答案 1 :(得分:1)

除了上述步骤外,我还必须通过/etc/profile.d/设置SPARK_HOME

echo export SPARK_HOME=/opt/my/new/spark/ > /etc/profile.d/set_spark_home.sh

相关问题