Apache Sqoop中的容错

时间:2015-03-27 10:39:32

标签: hdfs sqoop data-import fault-tolerance sqoop2

我想运行增量夜间工作,从Oracle DataWarehouse中提取100 GB的数据到HDFS。处理完成后,需要将结果(几GB)导出回Oracle。

我们在亚马逊AWS中运行Hadoop,我们的数据仓库在内部。 AWS与内部之间的数据链接为100 mbps且不可靠。

如果我使用Sqoop-import从Oracle获取数据,并且网络出现间歇性中断,Sqoop如何处理这个问题? 此外,如果我导入(或导出)70%的数据会发生什么,而在剩下的30%中,网络会出现故障?

由于默认Sqoop使用JDBC,数据传输如何在网络级别进行?我们可以压缩传输中的数据吗?

0 个答案:

没有答案