Sqoop出口速度更快达到1亿条记录

时间:2018-09-22 03:40:14

标签: hadoop export teradata sqoop

我有与以下类似的查询

sqoop export 
    --connect jdbc:teradata://server/database=BIGDATA 
    --username dbuser 
    --password dbpw 
    -Dsqoop.export.records.per.statement=500
    --batch 
    --hive-table country
    --table COUNTRY
    --input-null-non-string '\\N' \ --input-null-string '\\N'  

上面的查询对300万条记录有效(花费1个小时将数据加载到TeraData表中)。对于将数据导出到Teradata空表的1亿条记录,我认为可能需要更多时间才能完成导出。如何有效地编写查询以更快地导出数据而又不会使查询失败?

1 个答案:

答案 0 :(得分:0)

您可能需要考虑将--fetch-size(sqoop必须提取的数据条目数)从默认的1000增加到e.g --fetch-size 10000 0r 20000,具体取决于在您的可用内存以及环境的带宽上。