hadoop - 从一个非常大的序列文件中获取数据的最佳方法是什么?

时间:2012-07-05 09:20:25

标签: hadoop hive bigdata

我在hdfs中有一个非常大的hadoop序列文件。 从中获取数据的最佳方法是什么?即选择记录等。

可以通过蜂巢来完成吗? 如何在序列文件中在hive中创建表?

感谢

1 个答案:

答案 0 :(得分:0)

如果您需要“快速”访问数据,您应该考虑将数据加载到某种数据存储区(DB或noSQL存储库,如HBase,Accumulo)。

另一个选项(如果你可以重写你的数据)是研究使用MapFile - 这会为你的序列文件中的键创建一个索引,并提供更快的访问权限。数据与完整文件扫描相比。

否则,如果你想使用Hive,那么在hive邮件列表上有一个关于这个主题的帖子: