我可以使用Sqoop将数据导入RCFile格式吗?

时间:2013-02-21 19:40:03

标签: hadoop format hdfs sqoop

根据http://sqoop.apache.org/docs/1.4.0-incubating/SqoopUserGuide.html#id1764646

  

您可以使用以下两种文件格式之一导入数据:分隔文本或   SequenceFiles。

但RCFile呢?

是否可以使用Sqoop将数据从Oracle DB导入RCFile格式的HDFS?

如果是,该怎么做?

2 个答案:

答案 0 :(得分:3)

Sqoop目前不支持RC文件。有一个jira SQOOP-640来添加此功能。

答案 1 :(得分:0)

Step 1: Create a ORC formatted table (base) in Hive.
    CREATE TABLE IF NOT EXISTS  tablename (hivecolumns)   STORED AS RCFILE

 Step 2 : Sqoop import to this RC table using HCatalog tool.  
     SQOOP IMPORT 
    --connect sourcedburl
    --username XXXX
    --password XXXX
     --table source_table
     --hcatalog-database hivedb
    --hcatalog-table tablename 

[HCatalog的表抽象为用户提供了Hadoop分布式文件系统(HDFS)中数据的关系视图,并确保用户无需担心其数据的存储位置或格式 - RCFile格式,文本文件,SequenceFiles,或ORC文件。]