Question

我正在尝试通过EMR上的Spark Streaming处理S3上的文件。我已经启用了指向S3（作为启动器）的检查点。我的问题是群集是否出现故障或损坏，我启动了一个新的群集，如何在停机期间提取S3存储桶中累积的所有文件？

当前，它在群集启动后开始处理文件。我尝试在代码中使用检查点，但是看不到以前的文件。有正确的方法吗？

我当前正在使用的示例代码：

import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.streaming._
val conf = new SparkConf().setAppName("SimpleApplication").setMaster("local[*]")
val sc1 = SparkContext.getOrCreate(conf)
val ssc = new StreamingContext(sc1,Seconds(10))
ssc.checkpoint("s3n://test-bucket/spark-streaming/metadata/")
val lines = ssc.textFileStream("s3n://test-bucket/raw-data/")

val a = lines.count()
a.saveAsTextFiles("s3n://rachit-nvr-del/spark-streaming/data/")

通过Spark Streaming Checkpoint处理未处理的S3文件

0 个答案: