Apache Spark:在独立模式下并行运行作业

时间:2018-01-16 08:29:14

标签: apache-spark parallel-processing

我们正试图通过Apache Spark将数据从Oracle数据库传输到Kinetica数据库。

我们在独立模式下安装了Spark。我们执行了以下命令。但是,我们尝试了所有方法,但我们无法并行管理作业。我们使用2台IBM服务器,每台服务器有128个内存和1TB内存。

我们还在spark-defaults.conf中添加了:

spark.executor.memory=64g
spark.executor.cores=32
spark.default.parallelism=32
spark.cores.max=64
spark.scheduler.mode=FAIR
spark.sql.shuffle.partions=32

在机器上:10.20.10.228

./start-master.sh --webui-port 8585

./start-slave.sh --webui-port 8586 spark://10.20.10.228:7077

在机器上10.20.10.229:

./start-slave.sh --webui-port 8586 spark://10.20.10.228:7077

在机器上:10.20.10.228:

我们启动Spark shell:

spark-shell --master spark://10.20.10.228:7077

然后我们进行配置:

val df  = spark.read.format("jdbc").option    
("url", "jdbc:sqlserver://10.20.10.148:1433;databaseName=testdb").option
("dbtable", "dbo.temp_muh_hareket").option("user", "gpudb").option   
("password", "Kinetica2017!").load()

import com.kinetica.spark._
val lp = new LoaderParams("http://10.20.10.228:9191", "jdbc:simba://10.20.10.228:9292;ParentSet=MASTE
R", "muh_hareket_20", 
false,"",100000,true,true,"admin","Kinetica2017!",4, true, true, 1)  
SparkKineticaLoader.KineticaWriter(df,lp);

以上命令成功运行。数据传输完成。但是,工作不是并行工作。执行人也连续工作并轮流。他们不同时工作。

我们如何让工作并行工作?

我非常感谢你的帮助。我们已尽我们所能。

0 个答案:

没有答案
相关问题