基于第三方网站的自动报告ETL

时间:2018-02-25 12:11:53

标签: etl business-intelligence data-analysis data-science

自动提取来自第三方客户和供应商网站的报告的首选方法是什么?

其他信息:

  • 不可能与这些第三方直接建立数据库
  • 第三方网站没有可用的API
  • 每个第三方网站都要求您登录,设置某些报告条件和参数,然后手动将报告导出为CSV或Excel

最终计划是安排在特定频率上提取这些报告。该过程需要自动化,并且还应提供有关故障/成功加载操作的提示。

我希望这是一个高度自定义的脚本,但是如果有人知道我解决这个问题的托管ETL /中间件解决方案,那也没关系。

非常有兴趣了解我们如何处理上述问题。

1 个答案:

答案 0 :(得分:0)

您可以使用Apache Airflow。

它是由AirBnB创建的基于Python的cron / ETL框架。因此,使用Python脚本可以解决下载问题,Airflow可以让您设置日程安排。

这仅仅来自经验,但是:更好地采用可以帮助您处理案例的软件而非高度自定义的脚本 - 因为最终,此脚本将变得如此复杂,将无法再维护。