在火花流中写入处理过的文件

时间:2016-11-11 08:50:28

标签: amazon-s3 apache-kafka spark-streaming

我正在使用Spark流(在java中)来消费来自Kafka的消息。我在rdd上做了一些处理。现在,我应该将此处理过的信息(字符串)写入s3上的文件。我如何实现这一目标?

directKafkaStream.map(message -> recordInjection.invert(message._2).get()).foreachRDD(rdd -> {
                rdd.foreach(record -> {
  // processing each record, storing the processed info in a string.
  // write each processed record (string) to s3
  });
});

1 个答案:

答案 0 :(得分:0)

您可以使用RDD.saveAsTextFile(" s3a://bucket/path/file.avro"),但您可能会发现自己创建了许多小文件。