使用数据库动态生成气流任务

时间:2018-07-02 08:01:06

标签: airflow directed-acyclic-graphs airflow-scheduler

我想像这样运行气流dag->

  • 我有2名气流工人W1和W2。
  • 在W1中,我计划了一个任务(W1-1),但是在W2中,我想创建X个任务(W2-1,W2-2 ... W2-X)。
  • 每个任务的数字X和bash命令将从数据库调用中得出。
  • 工作者W2的所有任务应在W1完成后并行运行。

这是我的代码

dag = DAG('deploy_single', catchup=False, default_args=default_args, schedule_interval='16 15 * * *')

t1 = BashOperator(
        task_id='dummy_task',
        bash_command='echo hi > /tmp/hi',
        queue='W1_queue',
        dag=dag)

get_all_engines = "select full_command, queue_name from internal_airflow_hosts where logical_group = 'live_engines';"

db_creds = json.loads(open('/opt/airflow/db_creds.json').read())
conn_dict = db_creds["airflowdb_local"]
connection = psycopg2.connect(**conn_dict)

cursor = connection.cursor()

cursor.execute(get_all_engines)
records = cursor.fetchall()
i = 1
for record in records:
    t = BashOperator(
        task_id='script_test_'+str(i),
        bash_command="{full_command} ".format(full_command=str(record[0])),
        queue=str(record[1]),
        dag=dag)
    t.set_upstream(t1)
    i += 1

cursor.close()
connection.close()

但是,当我运行此命令时,W1上的任务成功完成,但W2上的所有任务均失败。在气流用户界面中,我可以看到它可以解决正确数量的任务(在这种情况下为10个),但是这10个任务中的每一个都失败了。

查看日志,发现在W2(位于另一台计算机上)上,气流找不到db_creds.json文件。

我不想将数据库证书文件提供给W2。

我的问题是在这种情况下如何动态创建气流任务? 基本上,我想在气流服务器上运行数据库查询,并根据该查询的结果将任务分配给一个或多个工作人员。该数据库将包含有关哪些引擎处于活动状态等的更新信息,我希望DAG反映这一点。从日志看来,每个工作人员都在运行数据库查询。为每个工作人员提供对数据库的访问不是一种选择。

2 个答案:

答案 0 :(得分:2)

一种方法是将信息存储在Airflow Variable中。

您可以获取在变量中动态生成DAG(和必要的配置)所需的信息,并使W2从那里访问它。

变量是airflow model,可用于存储所有任务都可以访问的静态信息(没有关联时间戳的信息)。

答案 1 :(得分:2)

谢谢@ viraj-parekh和@cwurtz。

经过反复试验,找到了在这种情况下使用气流变量的正确方法。

步骤1)我们创建另一个名为gen_var.py的脚本并将其放置在dag文件夹中。这样,调度程序将拾取并生成变量。如果用于生成变量的代码在deploy_single dag内,那么我们将遇到相同的依赖项问题,因为工作人员也将尝试处理该dag。

"""
Code that goes along with the Airflow tutorial located at:
https://github.com/airbnb/airflow/blob/master/airflow/example_dags/tutorial.py
"""
import json
import psycopg2
from airflow.models import Variable
from psycopg2.extensions import AsIs

get_all_engines = "select full_command, queue_name from internal_airflow_hosts where logical_group = 'live_engines';"

db_creds = json.loads(open('/opt/airflow/db_creds.json').read())
conn_dict = db_creds["airflowdb_local"]
connection = psycopg2.connect(**conn_dict)

cursor = connection.cursor()

cursor.execute(get_all_engines)
records = cursor.fetchall()

hosts = {}
i = 1
for record in records:
    comm_dict = {}
    comm_dict['full_command'] = str(record[0])
    comm_dict['queue_name'] = str(record[1])
    hosts[i] = comm_dict
    i += 1

cursor.close()
connection.close()

Variable.set("hosts",hosts,serialize_json=True)

注意对serialize_json的呼叫。 Airflow将尝试将变量存储为字符串。如果希望将其存储为字典,则使用serialize_json=True。 Airflow仍将通过json.dumps

将其存储为字符串

第2步)简化dag并像这样-

调用此"hosts"变量(现在反序列化以返回dict)-

hoztz = Variable.get("hosts",deserialize_json=True)
for key in hoztz:
    host = hoztz.get(key)
    t = BashOperator(
        task_id='script_test_'+str(key),
        bash_command="{full_command} ".format(full_command=str(host.get('full_command'))),
        queue=str(host.get('queue_name')),
        dag=dag)
    t.set_upstream(t1)

希望它对其他人有帮助。