Spark流式作业调度控制执行?

时间:2016-08-02 06:11:00

标签: scala apache-spark spark-streaming

我有一个问题,在火花流中我只关心最后1分钟所以我已经相应地编写了我的代码

现在有时由于各种资源,我的预定批次就像这样堆积了

    INFO JobScheduler: Added jobs for time 1470046240000 ms
    INFO JobScheduler: Added jobs for time 1470046241000 ms
    INFO JobScheduler: Added jobs for time 1470046242000 ms
    INFO JobScheduler: Added jobs for time 1470046243000 ms

我的问题是,如果时间超过1分钟,我该如何放弃计划工作 这样它们就可以在执行前丢弃

1 个答案:

答案 0 :(得分:0)

为了跳过具有大输入数据的批次,然后设置阈值计数,如果您的输入RDD计数大于阈值,则不执行任何操作,否则执行所需的所有操作(如转换,操作)。

我使用这种方法来跳过空批次。