Question

我有一个Python中的Azure Databricks脚本，该脚本使用结构化流从事件中心读取JSON消息，处理这些消息并将结果保存在Data Lake Store中。消息从Azure逻辑应用程序发送到事件中心，该应用程序从Twitter API读取推文。

我正在尝试反序列化“事件中心”消息的正文，以便处理其内容。消息主体首先从二进制值转换为字符串值，然后使用from_json函数反序列化为结构类型，如本文所述：https://databricks.com/blog/2017/02/23/working-complex-data-formats-structured-streaming-apache-spark-2-1.html

这是一个代码示例（带有没收的参数）：

from pyspark.sql.functions import from_json, to_json
from pyspark.sql.types import DateType, StringType, StructType

EVENT_HUB_CONN_STRING = 'Endpoint=sb://myehnamespace.servicebus.windows.net/;SharedAccessKeyName=Listen;SharedAccessKey=xxx;EntityPath=myeh'
OUTPUT_DIR = '/mnt/DataLake/output'
CHECKPOINT_DIR = '/mnt/DataLake/checkpoint'

event_hub_conf = {
    'eventhubs.connectionString' : EVENT_HUB_CONN_STRING
}

stream_data = spark \
    .readStream \
    .format('eventhubs') \
    .options(**event_hub_conf) \
    .option('multiLine', True) \
    .option('mode', 'PERMISSIVE') \
    .load()

schema = StructType() \
    .add('FetchTimestampUtc', DateType()) \
    .add('Username', StringType()) \
    .add('Name', StringType()) \
    .add('TweetedBy', StringType()) \
    .add('Location', StringType()) \
    .add('TweetText', StringType())

stream_data_body = stream_data \
    .select(stream_data.body) \
    .select(from_json('body', schema).alias('body')) \
    .select(to_json('body').alias('body'))

# This works (bare string value, no deserialization):
# stream_data_body = stream_data.select(stream_data.body)

stream_data_body \
    .writeStream \
    .outputMode('append') \
    .format('json') \
    .option('path', OUTPUT_DIR) \
    .option('checkpointLocation', CHECKPOINT_DIR) \
    .start() \
    .awaitTermination()

在这里，我实际上还没有进行任何处理，只是微不足道的反序列化/序列化。

上面的脚本的确输出到Data Lake，但是结果JSON对象为空。这是输出示例：

{}
{}
{}

脚本中的注释代码确实会产生输出，但这只是字符串值，因为我们不包含反序列化：

{"body":"{\"FetchTimestampUtc\": 2018-10-16T09:21:40.6173187Z, \"Username\": ... }}

我想知道反斜线是否应该加倍，如上面链接中给出的示例所示？这可以通过from_json函数的options参数来实现：“用于控制解析的选项。接受与json数据源相同的选项。”但是我还没有找到有关选项格式的文档。

有什么想法为什么反序列化/序列化不起作用？

Answer 1

似乎输入的JSON必须具有特定的语法。字段值必须是字符串，不允许使用时间戳（对于整数，浮点数等可能也是如此）。类型转换必须在Databricks脚本中完成。

我更改了输入JSON，以便引用时间戳记值。在模式中，我还将DateType更改为TimestampType（更合适），而不是StringType。

通过使用以下选择表达式：

stream_data_body = stream_data \
    .select(from_json(stream_data.body.cast('string'), schema).alias('body')) \
    .select(to_json('body').alias('body'))

在输出文件中产生以下输出：

{"body":"{\"FetchTimestampUtc\":\"2018-11-29T21:26:40.039Z\",\"Username\":\"xyz\",\"Name\":\"x\",\"TweetedBy\":\"xyz\",\"Location\":\"\",\"TweetText\":\"RT @z123: I just want to say thanks to everyone who interacts with me, whether they talk or they just silently rt or like, thats okay.…\"}"}

这是预期的结果，尽管时间戳值作为字符串值输出。实际上，整个身体对象都是作为字符串输出的。

如果输入格式是带有本机字段类型的正确JSON，则我无法使提取正常工作。在这种情况下，from_json的输出始终为空。

编辑：这似乎使我感到困惑。日期值应始终用JSON引用，而不是“本机”类型。

我已经测试了整数和浮点值可以不带引号而传递，以便可以使用它们进行计算。

在Azure Databricks中反序列化事件中心消息

1 个答案: