sqoop如何避免将重复数据从HDFS导出到RDBMS?

时间:2020-05-18 23:12:59

标签: hdfs sqoop

HDFS以复制形式存储数据,当我们使用SQOOP将数据从HDFS移到RDBMS时,squeoop如何避免将重复数据从HDFS导出到RDBMS?

1 个答案:

答案 0 :(得分:0)

HDFS内部处理复制。通常,您使用HDFS协议/ HDFS API读取文件,然后hdfs在内部进行管理,并且仅返回数据的一个副本。

Sqoop还使用HDFS API /协议读取数据。

因此,不需要在sqoop端进行额外处理。