数据工厂复制活动和ZipDeflate吞吐量低

时间:2018-06-15 13:34:58

标签: ftp azure-storage-blobs azure-data-factory azure-data-factory-2

我目前有一个由简单的复制活动组成的管道,该活动从第三方的FTP服务器获取压缩文件,解压缩文件并将它们复制到blob存储容器。

吞吐量非常低(7 KB / s),只是复制文件而不解压缩不会造成任何问题(700 KB / s,这与使用FileZilla的FTP服务器的常规下载速度一致)。 / p>

对于Data Factory团队,运行ID为:825e15a9-aba6-47ed-8656-88c9b6bc3754

以下数据集中的某些名称已被修改。

输入数据集: { "name": "InputDataset", "properties": { "linkedServiceName": { "referenceName": "3PPFtpServer", "type": "LinkedServiceReference" }, "type": "FileShare", "typeProperties": { "compression": { "type": "ZipDeflate", "level": "Fastest" }, "fileName": "sample_file.zip", "folderPath": "/dir1/dir2/" } }, "type": "Microsoft.DataFactory/factories/datasets" }

输出数据集: { "name": "OutputDataset", "properties": { "linkedServiceName": { "referenceName": "AzureStorageLinkedService", "type": "LinkedServiceReference" }, "type": "AzureBlob", "typeProperties": { "fileName": "", "folderPath": "test-output/" } }, "type": "Microsoft.DataFactory/factories/datasets" }

我在调整减压方面遇到了什么问题吗?

1 个答案:

答案 0 :(得分:0)

您是否使用自托管集成运行时访问ftp服务器?或者它是Azure IR吗?

如果它是自托管的,那么您的处理能力可能不足以解压缩并上传文件更快,因此最好的计划是上传压缩文件,然后在Azure存储中解压缩,这样它将文件解压缩到云端。您将有2个复制活动和3个数据集:

活动1:将压缩文件从ftp复制到Azure存储。数据集将与您现在一样,但输出数据集将使用与输入相同类型的压缩。 活动2:将解压缩的文件从Azure存储复制到Azure存储(当然是另一个文件夹)。输入数据集将与Activity1的输出相同,输出将是您在问题中显示的数据集。

希望这有帮助!