从亚马逊sqs读取数据并以Parquet格式写入s3

时间:2017-11-29 12:02:41

标签: aws-lambda amazon-kinesis aws-glue amazon-kinesis-firehose

我们有一个用例,来自不同用户的消息数据被发送到SQS,我们作为数据团队,想要订阅该队列并将数据放入S3,按时间划分,以便我们可以进行适当的分析在他们之上。

使用这些消息并将其写入S3的最佳方法是什么?

我想到的是使用AWS lambda将这些消息放到Firehose中,然后使用Firehose作为缓冲区,一旦数据可用于特定时间段(假设一小时),请使用Firehose编写它是用Parquet格式的S3吗?

还有其他解决方案吗?也许使用AWS Glue或Data Pipeline?

1 个答案:

答案 0 :(得分:0)

AWS Kinesis Firehose 现在支持以无服务器方式将 JSON 转换为 Parquet(或 ORC) - 有关详细信息,请参阅此处https://docs.aws.amazon.com/firehose/latest/dev/record-format-conversion.html

相关问题