Question

我有一个问题，在火花流中我只关心最后1分钟所以我已经相应地编写了我的代码

现在有时由于各种资源，我的预定批次就像这样堆积了

    INFO JobScheduler: Added jobs for time 1470046240000 ms
    INFO JobScheduler: Added jobs for time 1470046241000 ms
    INFO JobScheduler: Added jobs for time 1470046242000 ms
    INFO JobScheduler: Added jobs for time 1470046243000 ms

我的问题是，如果时间超过1分钟，我该如何放弃计划工作这样它们就可以在执行前丢弃

Answer 1

为了跳过具有大输入数据的批次，然后设置阈值计数，如果您的输入RDD计数大于阈值，则不执行任何操作，否则执行所需的所有操作（如转换，操作）。

我使用这种方法来跳过空批次。

Spark流式作业调度控制执行？

1 个答案: