火花任务规模太大了

时间:2016-11-29 15:43:49

标签: apache-spark logistic-regression

我正在使用LBFGS逻辑回归将示例分类为两个类别之一。当我正在训练模型时,我会收到很多类似的警告 -

SELECT P.* FROM PARENT P WHERE (P.DATE > '01.01.2015' OR (P.STATUS <> 1 AND P.STATUS <> 9));

我有大约94个功能和大约7500个训练样例。为了将任务大小分解成更小的块,是否还应该传递一些其他参数?

另外,这只是一个警告,在最坏的情况下可以忽略吗?或者它是否妨碍了培训?

我用这种方式打电话给我的教练 -

WARN scheduler.TaskSetManager: Stage 132 contains a task of very large size (109 KB). The maximum recommended task size is 100 KB.
WARN scheduler.TaskSetManager: Stage 134 contains a task of very large size (102 KB). The maximum recommended task size is 100 KB.
WARN scheduler.TaskSetManager: Stage 136 contains a task of very large size (109 KB). The maximum recommended task size is 100 KB.

另外,我的驱动程序和执行程序内存为val lr_lbfgs = new LogisticRegressionWithLBFGS().setNumClasses(2) lr_lbfgs.optimizer.setRegParam(reg).setNumIterations(numIterations) val model = lr_lbfgs.run(trainingData) ,我将其设置为20G的参数

1 个答案:

答案 0 :(得分:2)

Spark sends a copy每个需要对执行者可见的变量和方法;此警告意味着这些对象总共超过100 KB。如果它不会明显影响性能,您可以放心地忽略此警告,或者您可以考虑将某些变量标记为broadcast variables