Apache Airflow-DAG中有多少个任务太多?

时间:2019-04-26 22:38:03

标签: airflow airflow-scheduler orchestration apache-airflow-xcom

我尝试让DAG处理400个任务(例如每个任务都在运行调用远程Spark服务器以将单独的数据文件处理为s3 ...与mysql无关),而airflow(v1.10.3)在下一个任务中进行了以下操作15分钟:

  • cpu保持在99%
  • 未处理新的腻子登录或ssh请求 我的机器(amazon linux)
  • 气流网络服务器停止响应。 给出了504个错误
  • 开始与MySQL RDS的130个并发连接 (气流metadb)
  • 使我的任务停留在计划状态

我最终切换到另一个ec2实例,但得到了相同的结果...

我正在单台计算机(16个CPU)上运行LocalExecutor。

请注意,DAG可以正常运行30个任务。

1 个答案:

答案 0 :(得分:0)

DAG中的任务数量没有实际限制。就您而言,您正在使用LocalExecutor-气流将使用主机上可用的任何资源来执行任务。听起来您刚刚淹没了ec2实例的资源,并且使气流工作人员/调度程序超负荷了。我建议增加更多的工作人员来分解任务或降低airflow.cfg中的parallelism