将非结构化CSV数据加载到Hive中

时间:2016-03-20 21:37:38

标签: csv hive

我想将包含来自Stack Exchange的250000个帖子的CSV文件加载到Hive中。 CSV采用以下格式:

    Id  Score   ViewCount   ParentId    Body    DisplayName rnk

每个字段都由","分隔。但是,搞砸一切的领域是身体。

正文包含网站上排名前250000个帖子的内容,因此其中包含所有类型的字符,因此每行有一个帖子,每行250000行。

我已经阅读了Serde和Regexp,但我仍然在我的Hive表中获得空值。

    CREATE TABLE dataStore(Id string, Score string, ViewCount string,     ParentId string, Body String, DisplayName String, Rank String)
    ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
    WITH SERDEPROPERTIES (
    "separatorChar" = ",",
    "quoteChar"     = """",
    "escapeChar"    = "\"
    )  
    STORED AS TEXTFILE;

1 个答案:

答案 0 :(得分:1)

我通常使用ogrodnek's serde,你可能会有更多运气。我也不认为你正确地逃脱了你的特殊角色,我相信你需要

"quoteChar"     = "\"",
"escapeChar"    = "\\"