在本地模式下,SPARK性能会随着负载的增加而降低

时间:2019-01-02 13:48:34

标签: apache-spark

我试图在3个节点群集上以本地模式运行apache spark sql作业(1.6),并且在生产中遇到以下问题。

  1. 在DL层增加负载后,复制层的执行时间每天都在增加。
  2. 每天在每个表中插入近15万条记录。
  3. 我们尝试使用默认机制以及“ MEMORY AND DISK”持久机制,但在两种情况下其工作原理都相同。
  4. 如果先运行大型表,执行时间会影响其他表。

spark作业以标准格式被调用,并使用spark-submit执行shell脚本,并且我的spark作业的sql查询如下。

val result=sqlcontext.sql("CREATE TABLE "+DB+"."+table_name+" row format delimited fields terminated by '^' STORED as ORC tblproperties(\"orc.compress\"=\"SNAPPY\",\"orc.stripe.size\"='67108864') AS select distinct a.* from "+fdl_db+"."+table_name+" a,(SELECT SRL_NO,MAX("+INC_COL+") as incremental_col FROM "+fdl_db+"."+table_name+" group by SRL_NO) b where a.SRL_NO=b.SRL_NO and a."+INC_COL+"=b.incremental_col").repartition(100);

请让我知道是否需要更多信息。

0 个答案:

没有答案
相关问题