Data Lake Store的备份

时间:2018-04-03 10:55:36

标签: azure hadoop hdinsight azure-data-lake data-lake

我正在为Data Lake Store(DLS)制定备份策略。我的计划是创建两个DLS帐户并在它们之间复制数据。我已经评估了几种实现此目的的方法,但它们都不满足保留POSIX ACL的要求(DLS用语中的权限)。 PowerShell cmdlet要求将数据从主DLS下载到VM上,然后重新上载到辅助DLS上。 AdlCopy工具仅适用于Windows 10,不保留权限,也不支持跨区域复制数据(并非这是一项硬性要求)。数据工厂似乎是最明智的方法,直到我意识到它也不保留权限。 这让我想到了我的最后一个选择--Distcp。根据Distcp指南(https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html),该工具支持保留权限。但是,使用Distcp的缺点是必须从HDInsight运行该工具。虽然它支持群集内和群集间复制,但我宁愿没有运行HDInsight群集来进行备份操作。 我错过了什么吗?有没有人有更好的建议?

1 个答案:

答案 0 :(得分:0)

您的评估是全面的。如果您想要复制权限,那些确实是可用的选项。所以你必须选择其中一个,对不起。如果您真的想要一个可以复制权限的无服务器选项,那么Azure数据工厂必须是它。您能否在此处创建一个反馈项目 - https://feedback.azure.com/forums/270578-data-factory

谢谢, 萨钦谢思 Azure Data Lake项目经理。

相关问题