备份配置单元内部表的最佳存储格式

时间:2017-09-26 09:36:54

标签: amazon-web-services hadoop hive data-warehouse

我有一个hive内部表,有大约5亿条记录。 我的配置单元部署在AWS EMR之上。我不想让AWS EMR始终运行。因此,我想备份配置单元内部表数据。

这样做的一种简单方法是创建一个指向S3 Location的外部表,然后使用insert命令将所有记录移动到该外部表中。 当我需要内部表格时,我可以使用这个外部S3表来获取所有数据。

由于此表仅用于备份,我想询问哪种格式存储将是我的最佳选择。

Hive现在支持以下格式

TEXTFILE
SEQUENCEFILE
ORC
PARQUET
AVRO
RCFILE

除了上面提到的方法之外,还有其他方法来备份你的内部表格。

1 个答案:

答案 0 :(得分:1)

简而言之

我认为更改文件格式(您提到的列表)的大小不会有太大差异。 但是,您希望该文件的文件大小和访问类型对您的云帐户结算起着至关重要的作用

所以请考虑以下,

  1. 压缩 - 缩小尺寸
  2. Amazon Glacier - AWS中具有成本效益的解决方案,因为数据不太可能访问(存档)
  3. 选择解决方案时需要考虑的事项,您可以购买多少时间

    • 从档案存储中访问文件。
    • 将数据格式转换为Hive托管表(如果您在归档期间更改)
    • 数据解压缩(每次压缩是时间和大小之间的交易

    扩展答案

    以下是一些具有解压缩速度和空间效率的文件格式,为您选择平衡(意味着时间/空间如上所述)和可用的压缩格式

    uncompress chart

    more compress and compress benchmarks at

相关问题