apache-spark - 如何在Cloud Dataproc上安装Apache Spark的自定义版本

时间：2018-04-12 07:54:27

标签： apache-spark google-cloud-platform google-cloud-dataproc

出于这样或那样的原因，我想安装Apache Spark版本Google Cloud Dataproc与{{3}}版本不同的版本。如何安装Spark的自定义版本，同时又保持与Cloud Dataproc工具的兼容性？

答案 0 :(得分：3)

通常，您应该能够在Dataproc上安装Spark的自定义版本，并保持与Cloud Dataproc工具的兼容性（主要是Cloud Dataproc作业）。

要做到这一点，你应该：

在/usr/local/lib/spark或/opt/spark而非用户主目录
不要修改用户.bashrc
使用apt-get remove
符号链接/usr/local/bin/spark-submit到提供的二进制文件（这是Cloud Dataproc作业API与新的Spark安装一起使用所必需的）
重新使用Cloud Dataproc提供的/etc/spark/conf

答案 1 :(得分：1)

除了上述步骤外，我还必须通过/etc/profile.d/设置SPARK_HOME

echo export SPARK_HOME=/opt/my/new/spark/ > /etc/profile.d/set_spark_home.sh