Question

我想使用等效的RDD[String]将gzip压缩文件读入sc.textFile("path/to/file.Z")。

我的文件扩展名除外，如果不是gz，而是Z，那么该文件不会被识别为gzip压缩。

我无法重命名它们，因为它会破坏生产代码。我不想复制它们，因为它们很庞大而且很多。我想我可以使用某种符号链接，但我想看看是否有一种方法首先使用scala / spark（我现在在我的本地Windows机器上）。

如何有效地阅读此文件？

Answer 1

此处有解决此问题的解决方法http://arjon.es/2015/10/02/reading-compressed-data-with-spark-using-unknown-file-extensions/

相关部分：

...扩展GzipCodec并覆盖getDefaultExtension方法。

package smx.ananke.spark.util.codecs

import org.apache.hadoop.io.compress.GzipCodec

class TmpGzipCodec extends GzipCodec {

  override def getDefaultExtension(): String = ".gz.tmp" // You should change it to ".Z"

}

现在我们刚刚注册了这个编解码器，设置 SparkConf上的spark.hadoop.io.compression.codecs：

val conf = new SparkConf()

// Custom Codec that process .gz.tmp extensions as a common Gzip format
conf.set("spark.hadoop.io.compression.codecs", "smx.ananke.spark.util.codecs.TmpGzipCodec")

val sc = new SparkContext(conf)

val data = sc.textFile("s3n://my-data-bucket/2015/09/21/13/*")

使用spark自定义扩展名读取压缩文件

1 个答案:

使用spark自定义扩展名*读取压缩文件*

1 个答案:

使用spark自定义扩展名读取压缩文件