我应该使用pub / sub

时间:2019-02-15 04:56:03

标签: google-cloud-platform

我正在尝试使用GCP服务编写提取应用程序。每天可能会有约1 TB的数据以流方式发送(即每小时100 GIG,或在特定时间甚至一次)。

我正在尝试设计提取应用程序,我首先认为在cron作业中编写一个简单的Python脚本以顺序读取文件(甚至在两个三个线程中),然后将其作为消息发布给pub / sub。此外,我需要运行一个Dataflow作业,始终从pub / sub中读取数据并将其保存到BigQuery。

但是我真的很想知道是否在这里完全需要pub / sub,我知道数据流可能非常灵活,我想知道是否可以将1 TB的数据作为批处理作业直接从GCS导入到BigQuery中,或者更好地由流媒体作业(按pub / sub)完成,如我上面所述?每种方法在成本方面都有哪些利弊?

1 个答案:

答案 0 :(得分:1)

似乎您根本不​​需要发布/订阅。

已经有一个数据流模板,用于直接从Cloud Storage to BigQuery传输文本文件(在BETA中,就像从Pub / Sub到BigQuery模板一样),并且通常,批处理作业比流作业便宜(请参阅{{3 }}。