file - hadoop中的序列文件是什么？

首先我们应该了解SequenceFile尝试解决的问题，然后SequenceFile如何帮助解决问题。

在HDFS中

这两种情况需要不同的解决方案。

HAR文件

<强> SequenceFile

SequenceFile的概念是将每个小文件放到一个更大的单个文件中。
例如，假设有10,000个100KB文件，那么我们可以编写一个程序将它们放入一个像下面这样的SequenceFile中，在这里你可以使用filename作为键，将内容作为值。

SequenceFile File Layout http://img.blog.csdn.net/20151213123516719
一些好处：
1. NameNode上需要的内存较少。继续10,000个100KB文件示例，
  - 在使用SequenceFile之前，10,000个对象在NameNode中占用大约4.5MB的RAM。
  - 使用SequenceFile，1GB SequenceFile和8个HDFS块后，这些对象在NameNode中占用大约3.6KB的RAM。
2. SequenceFile是可拆分的，因此适用于MapReduce。
3. SequenceFile支持压缩。
支持的压缩，文件结构取决于压缩类型。
1. 未压缩
2. Record-Compressed：压缩添加到文件中的每条记录。 record_compress_seq http://img.blog.csdn.net/20151213182753789
3. 块压缩这里写图片描述 http://img.blog.csdn.net/20151213183017236
  - 等待数据达到块大小以进行压缩。
  - 块压缩比Record压缩提供更好的压缩率。
  - 使用SequenceFile时，块压缩通常是首选选项。
  - 此处的阻止与HDFS或文件系统阻止无关。