通过Spark Streaming Checkpoint处理未处理的S3文件

时间:2018-09-22 00:13:34

标签: spark-streaming amazon-emr spark-checkpoint

我正在尝试通过EMR上的Spark Streaming处理S3上的文件。我已经启用了指向S3(作为启动器)的检查点。我的问题是群集是否出现故障或损坏,我启动了一个新的群集,如何在停机期间提取S3存储桶中累积的所有文件?

当前,它在群集启动后开始处理文件。我尝试在代码中使用检查点,但是看不到以前的文件。有正确的方法吗?

我当前正在使用的示例代码:

import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.streaming._
val conf = new SparkConf().setAppName("SimpleApplication").setMaster("local[*]")
val sc1 = SparkContext.getOrCreate(conf)
val ssc = new StreamingContext(sc1,Seconds(10))
ssc.checkpoint("s3n://test-bucket/spark-streaming/metadata/")
val lines = ssc.textFileStream("s3n://test-bucket/raw-data/")

val a = lines.count()
a.saveAsTextFiles("s3n://rachit-nvr-del/spark-streaming/data/")

0 个答案:

没有答案