apache-spark - 用Avro序列化RDD

您可以使用GenericRecord API编写avro文件（请参见“不进行代码生成的序列化和反序列化”部分）。但是，您仍然需要Avro模式。

如果您有DataFrame，Spark会为您处理所有这些，因为Spark知道如何进行从Spark SQL类型到Avro类型的转换。

由于您说您不能使用DataFrame，因此您必须自己完成此架构的生成。一种选择是使用Avro的ReflectData API。

然后，一旦有了模式，您将执行map将RDD中的所有元素转换为GenericRecord，然后使用GenericDatumWriter将其写入文件。 / p>

我会认真考虑这些要求。 IMO，一种更好的设计是将RDD转换为DataFrame，以便您可以让Spark来完成编写Avro的繁重工作。或者...为什么还要打扰Avro？只需使用一种允许您拥有通用模式（如JSON）的文件格式即可。