Azure数据工厂数据迁移

时间:2017-05-25 17:22:30

标签: azure azure-data-factory

不确定这是一个明确的问题,还是仅仅是对输入的查询。我正在研究Azure Data Factory来实现数据迁移操作。我要做的是以下内容:

我有一个没有SQL DB的两个集合。这些集合通过共同属性关联。 我有一个MS SQL Server数据库,其数据通过属性/列与无SQL数据库集合中的数据相关。

其中一个NoSQL数据库集合将定期更新,另一个不经常更新。

我想要做的是准备一个数据工厂pipline,它将从所有3个数据库位置获取数据,根据公共属性组合它们,这将产生一个新的数据集。然后从该数据集中将数据集推送到另一个SQL Server数据库。

我对在数据工厂中如何完成这一点有点不清楚。有一个复制活动,但只适用于单个数据集输入,所以我不能直接使用它。我看到有一个数据转换活动的概念,看起来它们特定于按摩输入数据集以生成新数据集,但我不清楚哪些与我想要做的活动相关。

我确实发现有一个称为自定义活动的特殊活动实际上是一个用户定义的定义,可以开发它来做任何你想做的事情。这看起来最接近能够做我需要的,但我不确定这是否是最佳解决方案。

最重要的是,如果需要连接来自3个不同来源的数据,但我不清楚3个数据源的合并将如何工作,但如果数据集只是快照,则不知道如何做到这一点原始源数据,让我认为发生数据丢失的可能性。我不确定是否需要在某个地方发布某些数据的概念,但似乎实际上是为同一数据维护两个商店。

对此的任何输入都会有所帮助。

1 个答案:

答案 0 :(得分:0)

你要做很多事情。 我不知道您是否有使用SSIS的经验,但您尝试做的事情对于这些集成工具中的任何一个都是相当普遍的。

Your ADF diagram should look something like:
1. You define your 3 Data Sources as ADF Datasets on top of a 
corresponding Linked service
2. Then you build a pipeline that brings information from SQL Server into a 
temporary Data Source (Azure Table for example)
3. Next you need to build 2 pipelines that will each take one of your NoSQL 
Dataset and run a function to update the temporary Data Source which is the ouput
4. Finally you can build a pipeline that will bring all your data from the 
temporary Data Source into your other SQL Server

可以根据主设备的来源切换步骤2和3。

ADF可以一个接一个地或同时运行多个任务。简单地分解逻辑工作中的任务,你应该没有问题提出解决方案。