apache-spark - Spark Dstream中的窗口函数导致长期挂起的任务

我们正在尝试在spark中实现Window函数。 Spark通过Kafka（有5个分区）接收数据，我们正在使用Spark Java DStream进行处理。一旦将来自kafka的逗号分隔数据映射到Spark中的对象，我们就会创建一个20秒的窗口，该窗口以1秒的速度滑动。在这个Java DStream上，我们计算并打印输出（实际上我们想要做更多的处理，但为了简单起见，只应用count）。一切正常，直到处理时间出现尖峰，处理一个任务大约需要40秒，然后发布，我们得到一个长队列。群集细节： - 3节点集群 - 每个有45个核心（总共135个核心） - 每个都有256 GB RAM 设置测试：设置1： - - 5个Kafka分区 - 20秒窗口，1秒滑动 - 每个节点9个执行器（共27个执行器） - 为每个Executor分配10 GB 设置2： - - 5个Kafka分区 - 20秒窗口，1秒滑动 - 45 每个节点的执行程序（总共135个执行程序） - 为每个Executor分配 1 GB 设置3： - - 5个Kafka分区 - 20秒窗口，1秒滑动 - 15 每个节点的执行程序（共45个执行程序） - 为每个Executor分配 6 GB 设置4： - - 5个Kafka分区 - 120 秒窗口，以1秒为单位滑动 - 每个节点9个执行器（共27个执行器） - 为每个Executor分配10 GB 设置5： - （这是我们的实际场景） - 27 Kafka分区 - 120 秒窗口，以1秒为单位滑动 - 每个节点9个执行器（共27个执行器） - 为每个执行程序分配10 GB

在所有设置中，在某些时候处理需要花费太多时间（在大多数处理问题中接近40秒）。如果某人有解决方案或任何参数更改建议，那将会很棒。

Spark Dstream中的窗口函数导致长期挂起的任务

1 个答案: