使用Spark 2.0.2读取来自Kafka的Avro消息(结构化流式传输)

时间:2016-11-20 15:40:03

标签: scala apache-kafka spark-streaming avro apache-spark-2.0

我有一个spark 2.0应用程序,它使用spark streaming(使用spark-streaming-kafka-0-10_2.11)从kafka读取消息。

结构化流看起来非常酷,所以我想尝试迁移代码,但我无法弄清楚如何使用它。

在常规流媒体中我使用kafkaUtils来创建Dstrean,在我传递的参数中是值解串器。

在结构化流媒体中,文档说我应该使用DataFrame函数进行反序列化,但我无法准确确定这意味着什么。

我查看了这个例子example,但我在Kafka中的Avro对象是复杂的,不能像示例中的String那样简单地进行转换..

到目前为止,我尝试了这种代码(我在这里看到了另一个问题):

import spark.implicits._

  val ds1 = spark.readStream.format("kafka").
    option("kafka.bootstrap.servers","localhost:9092").
    option("subscribe","RED-test-tal4").load()

  ds1.printSchema()
  ds1.select("value").printSchema()
  val ds2 = ds1.select($"value".cast(getDfSchemaFromAvroSchema(Obj.getClassSchema))).show()  
  val query = ds2.writeStream
    .outputMode("append")
    .format("console")
    .start()

我得到“数据类型不匹配:无法将BinaryType转换为StructType(StructField(....”

如何反序列化该值?

4 个答案:

答案 0 :(得分:3)

我还不太熟悉Spark的序列化如何与新的/实验性结构化流媒体结合使用,但下面的方法确实有效 - 虽然我不确定它是否是最好的方法(恕我直言,这种方法有点尴尬看起来感觉如此。

我会尝试在自定义数据类型的示例中回答您的问题(此处:Foo案例类),而不是特别是Avro,但我希望它无论如何都会帮助您。我们的想法是使用Kryo序列化来序列化/反序列化您的自定义类型,请参阅Spark文档中的Tuning: Data serialization

  

注意:Spark支持通过内置(隐式)编码器对案例类进行序列化,您可以通过import spark.implicits._导入。但是为了这个例子,让我们忽略这个功能。

想象一下,您已将以下Foo案例类定义为自定义类型(TL; DR提示:为防止遇到奇怪的Spark序列化投诉/错误,您应将代码放入单独的Foo.scala文件中):

// This could also be your auto-generated Avro class/type
case class Foo(s: String)

现在,你有了以下结构化流代码来读取Kafka中的数据,其中输入主题包含消息值为二进制编码{K}的Kafka消息,您的目标是创建String基于这些消息值的实例(即类似于将二进制数据反序列化为Avro类的实例):

Foo

现在,我们将deserializing值设置为自定义val messages: DataFrame = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", "broker1:9092,broker2:9092") .option("subscribe", "my-input-topic") .load() 类型的实例,我们首先需要定义隐式Foo

Encoder[Foo]

回到你的Avro问题,你需要做的是:

  1. 根据您的需要创建合适的implicit val myFooEncoder: Encoder[Foo] = org.apache.spark.sql.Encoders.kryo[Foo] val foos: Dataset[Foo] = messages.map(row => Foo(new String(row.getAs[Array[Byte]]("value")))
  2. 将代码Encoder替换为将二进制编码的Avro数据反序列化为Avro POJO,即将二进制编码的Avro数据从消息值(Foo(new String(row.getAs[Array[Byte]]("value")))中取出并返回的代码,Avro row.getAs[Array[Byte]]("value")或您在其他地方定义的任何GenericRecord
  3. 如果有人知道更简洁/更好/ ......回答Tal的问题的方法,我全都听见了。 : - )

    另见:

答案 1 :(得分:3)

如上所述,从Spark 2.1.0开始,支持avro与批量阅读器,但不支持SparkSession.readStream()。以下是我根据其他响应在Scala中使用它的方法。为简洁起见,我简化了架构。

package com.sevone.sparkscala.mypackage

import org.apache.spark.sql._
import org.apache.avro.io.DecoderFactory
import org.apache.avro.Schema
import org.apache.avro.generic.{GenericDatumReader, GenericRecord}

object MyMain {

    // Create avro schema and reader
    case class KafkaMessage (
        deviceId: Int,
        deviceName: String
    )
    val schemaString = """{
        "fields": [
            { "name":  "deviceId",      "type": "int"},
            { "name":  "deviceName",    "type": "string"},
        ],
        "name": "kafkamsg",
        "type": "record"
    }""""
    val messageSchema = new Schema.Parser().parse(schemaString)
    val reader = new GenericDatumReader[GenericRecord](messageSchema)
    // Factory to deserialize binary avro data
    val avroDecoderFactory = DecoderFactory.get()
    // Register implicit encoder for map operation
    implicit val encoder: Encoder[GenericRecord] = org.apache.spark.sql.Encoders.kryo[GenericRecord]

    def main(args: Array[String]) {

        val KafkaBroker =  args(0);
        val InTopic = args(1);
        val OutTopic = args(2);

        // Get Spark session
        val session = SparkSession
                .builder
                .master("local[*]")
                .appName("myapp")
                .getOrCreate()

        // Load streaming data
        import session.implicits._
        val data = session
                .readStream
                .format("kafka")
                .option("kafka.bootstrap.servers", KafkaBroker)
                .option("subscribe", InTopic)
                .load()
                .select($"value".as[Array[Byte]])
                .map(d => {
                    val rec = reader.read(null, avroDecoderFactory.binaryDecoder(d, null))
                    val deviceId = rec.get("deviceId").asInstanceOf[Int]
                    val deviceName = rec.get("deviceName").asInstanceOf[org.apache.avro.util.Utf8].toString
                    new KafkaMessage(deviceId, deviceName)
                })

答案 2 :(得分:2)

所以实际上我公司的某个人为我解决了这个问题所以我会在这里为未来的读者发帖..

基本上我错过了miguno建议的解码部分:

def decodeMessages(iter: Iterator[KafkaMessage], schemaRegistryUrl: String) : Iterator[<YourObject>] = {
val decoder = AvroTo<YourObject>Decoder.getDecoder(schemaRegistryUrl)
iter.map(message => {
  val record = decoder.fromBytes(message.value).asInstanceOf[GenericData.Record]
  val field1 = record.get("field1Name").asInstanceOf[GenericData.Record]
  val field2 = record.get("field1Name").asInstanceOf[GenericData.String]
        ...
  //create an object with the fields extracted from genericRecord
  })
}

现在您可以从kafka中读取消息并对其进行解码:

val ds = spark
  .readStream
  .format(config.getString(ConfigUtil.inputFormat))
  .option("kafka.bootstrap.servers", config.getString(ConfigUtil.kafkaBootstrapServers))
  .option("subscribe", config.getString(ConfigUtil.subscribeTopic))
  .load()
  .as[KafkaMessage]

val decodedDs  = ds.mapPartitions(decodeMessages(_, schemaRegistryUrl))

* KafkaMessage只是一个案例类,其中包含从Kafka (key,value,topic,partition,offset,timestamp)

阅读时获得的通用对象

AvroTo<YourObject>Decoder是一个类,它会在给定模式注册表URL的情况下解码您的对象。

例如,使用Confluent&#39; KafkaAvroDeserializer和架构注册表。

val kafkaProps = Map("schema.registry.url" -> schemaRegistryUrl)
val client = new CachedSchemaRegistryClient(schemaRegistryUrl, 20)

// If you have Avro encoded keys
val keyDeserializer = new KafkaAvroDeserializer(client)
keyDeserializer.configure(kafkaProps.asJava, true) //isKey = true

// Avro encoded values
valueDeserializer = new KafkaAvroDeserializer(client)
valueDeserializer.configure(kafkaProps.asJava, false) //isKey = false

从这些中,调用.deserialize(topicName, bytes).asInstanceOf[GenericRecord]以获取avro对象。

希望这有助于某人

答案 3 :(得分:1)

使用以下步骤:

  • 定义Kafka消息。
  • 定义一个使用者实用程序,它返回YourAvroObject的DataSet。
  • 定义您的逻辑代码。

Kafka留言:

case class KafkaMessage(key: String, value: Array[Byte],
                                    topic: String, partition: String, offset: Long, timestamp: Timestamp)

卡夫卡消费者:

import java.util.Collections

import com.typesafe.config.{Config, ConfigFactory}
import io.confluent.kafka.serializers.KafkaAvroDeserializer
import org.apache.avro.Schema
import org.apache.avro.generic.GenericRecord
import org.apache.spark.sql.SparkSession

import scala.reflect.runtime.universe._


object KafkaAvroConsumer {

  private val conf: Config = ConfigFactory.load().getConfig("kafka.consumer")
  val valueDeserializer = new KafkaAvroDeserializer()
  valueDeserializer.configure(Collections.singletonMap("schema.registry.url",
    conf.getString("schema.registry.url")), false)

  def transform[T <: GenericRecord : TypeTag](msg: KafkaMessage, schemaStr: String) = {
    val schema = new Schema.Parser().parse(schemaStr)
    Utils.convert[T](schema)(valueDeserializer.deserialize(msg.topic, msg.value))
  }

  def createDataStream[T <: GenericRecord with Product with Serializable : TypeTag]
  (schemaStr: String)
  (subscribeType: String, topics: String, appName: String, startingOffsets: String = "latest") = {

    val spark = SparkSession
      .builder
      .master("local[*]")
      .appName(appName)
      .getOrCreate()

    import spark.implicits._

    // Create DataSet representing the stream of KafkaMessage from kafka
    val ds = spark
      .readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", conf.getString("bootstrap.servers"))
      .option(subscribeType, topics)
      .option("startingOffsets", "earliest")
      .load()
      .as[KafkaMessage]
      .map(msg => KafkaAvroConsumer.transform[T](msg, schemaStr)) // Transform it Avro object.

    ds
  }

}

更新

的Utils:

import org.apache.avro.Schema
import org.apache.avro.file.DataFileReader
import org.apache.avro.generic.{GenericDatumReader, GenericRecord}
import org.apache.avro.specific.SpecificData

import scala.reflect.runtime.universe._

object Utils {


  def convert[T <: GenericRecord: TypeTag](targetSchema: Schema)(record: AnyRef): T = {
      SpecificData.get.deepCopy(targetSchema, record).asInstanceOf[T]
  }


}