Spark SQL - Hivecontext - Hive中从一个表到另一个表的Datacopy

时间:2017-08-22 19:33:09

标签: apache-spark hive apache-spark-sql

我将数据从一个Hive表复制到Spark SQL代码中的另一个Hive表(外部),数据量为7400万行(~50 GB)。插入操作需要超过40分钟。

hiveContext.sql("insert overwrite table dev_work.WORK_CUSTOMER select * from  dev_warehouse.CUSTOMER")

我尝试过其他数据复制方式,例如:

  1. 这些外部表的hdfs -cp:
  2.   

    hdfs dfs -cp hdfs:/home/dummy/dev_dwh/CUSTOMER hdfs:/home/dummy/dev_work/WORK_CUSTOMER

    1. 导出导入:
    2. export table dev_warehouse.CUSTOMER to 'hdfs_exports_location/customer';
      import external table dev_work.WORK_CUSTOMER from 'hdfs_exports_location/CUSTOMER';
      

      群集详细信息:

      CDH 5.8,19节点集群

      您能否帮助调整性能以找到执行快速数据复制的任何替代方法。

      谢谢, Arvind的

1 个答案:

答案 0 :(得分:0)

尝试Hadoop DistCp,这是一个用于大型群间/群集内复制的工具

http://hadoop.apache.org/docs/r2.7.3/hadoop-distcp/DistCp.html