利用Google Cloud平台的数据融合,我们正在建立数据管道并对其进行完善。
我使用Data Fusion和Enterprise产品。
这是ETL工作。
GCS属性
指定路径:gs:// directory1 /
格式:文本
仅路径文件名:True
递归读取文件:True
其他默认设置
牧马人配置 我正在使用经过验证的指令。
BigQuery属性为: 数据集和表都被确认为正确的名称。
操作:插入
当处理大约3,800个数据案例时,数据管道失败。
没有错误。
当我查看日志时,一些警告如下。
警告
2020-10-20 19:02:58,058-警告[spark-submitter-phase-1-d33c7ba1-1306-11eb-9db4-42010a8e0010:oasdsHadoopDelegationTokenManager @ 66]-spark.yarn.security.tokens .hive.enabled已过时。请改用spark.security.credentials.hive.enabled。 2020-10-20 19:02:58,059-警告[spark-submitter-phase-1-d33c7ba1-1306-11eb-9db4-42010a8e0010:oasdsHadoopDelegationTokenManager @ 66]-不推荐使用spark.yarn.security.tokens.hbase.enabled 。请改用spark.security.credentials.hbase.enabled。
2020-10-20 19:01:57,615-警告[main:iccccConfiguration @ 1814]-文件:/tmp/default_event_gmkt_201905_DataPipelineWorkflow_3fecd800-1306-11eb-9f04-0e7903ca009f/cConf.xml:尝试覆盖最终参数:messaging.system.topics;无视。 2020-10-20 19:01:57,616-警告[main:iccccConfiguration @ 1814]-文件:/tmp/default_event_gmkt_201905_DataPipelineWorkflow_3fecd800-1306-11eb-9f04-0e7903ca009f/cConf.xml:尝试覆盖最终参数:app.program .runtime.monitor.topics.configs;无视。 2020-10-20 19:01:57,616-警告[main:iccccConfiguration @ 1814]-文件:/tmp/default_event_gmkt_201905_DataPipelineWorkflow_3fecd800-1306-11eb-9f04-0e7903ca009f/cConf.xml:尝试覆盖最终参数:messaging.max .instances;无视。 2020-10-20 19:01:57,617-警告[main:iccccConfiguration @ 1814]-文件:/tmp/default_event_gmkt_201905_DataPipelineWorkflow_3fecd800-1306-11eb-9f04-0e7903ca009f/cConf.xml:尝试覆盖最终参数:app.program .runtime.monitor.server.info.file;忽略。
请告知我原因。
感谢您的阅读。 :)