Question

我试图在3个节点群集上以本地模式运行apache spark sql作业（1.6），并且在生产中遇到以下问题。

在DL层增加负载后，复制层的执行时间每天都在增加。
每天在每个表中插入近15万条记录。
我们尝试使用默认机制以及“ MEMORY AND DISK”持久机制，但在两种情况下其工作原理都相同。
如果先运行大型表，执行时间会影响其他表。

spark作业以标准格式被调用，并使用spark-submit执行shell脚本，并且我的spark作业的sql查询如下。

val result=sqlcontext.sql("CREATE TABLE "+DB+"."+table_name+" row format delimited fields terminated by '^' STORED as ORC tblproperties(\"orc.compress\"=\"SNAPPY\",\"orc.stripe.size\"='67108864') AS select distinct a.* from "+fdl_db+"."+table_name+" a,(SELECT SRL_NO,MAX("+INC_COL+") as incremental_col FROM "+fdl_db+"."+table_name+" group by SRL_NO) b where a.SRL_NO=b.SRL_NO and a."+INC_COL+"=b.incremental_col").repartition(100);

请让我知道是否需要更多信息。

在本地模式下，SPARK性能会随着负载的增加而降低

0 个答案: