配置Cosmos DB,Data Factory v2中的批量插入库

时间:2018-10-22 20:53:24

标签: azure-cosmosdb azure-data-factory-2

根据文档,用于cosmos db的data factory v2连接器使用bulk executor library

Data Factory的复制活动具有参数“数据集成单位”,“复制并行度”和“写入批处理大小”。

我正在尝试寻找最佳设置,因为我确定它取决于数据大小,行等,但是我想了解它们在这种情况下的含义。

设置为自动时; “数据集成单元”和“复制并行度”似乎设置为4。当然,我确定这取决于预配置的RU / s等。我还读到像链接服务这样的关系总会忽略并行性,但是我不确定CosmosDB是否适合该支架。

复制并行度

在阅读性能建议时,它表明每个应用程序都生成了一个BulkExecutor,这与我对“复制并行度”的理解相反。

我认为“复制并行度”是线程数,即BulkExecutor产生的线程数。建议听起来好像BulkExecutor将管理它自己的线程。除非实际上不是“ maxConcurrencyPerPartitionKeyRange”参数?

似乎确实使用了写入批处理大小,当监视批处理时,我看到了从源读取的整个数据集,并将批处理写入了目标。但是,似乎BulkExecutor在内部以最佳方式处理批处理,批处理大小应该改为0还是可能很大?还是会导致集成单元上的内存问题(天蓝色或自托管)?

此外,我假定将数据工厂设置为空以进行写批处理超时时,批量执行程序在拥塞期间会无限期重试,还是会在某个时候死掉?

0 个答案:

没有答案