首先,对长篇故事预先道歉,有时会使用错误的术语。
希望有人可以向我们建议如何将BigQuery最佳地实施到我们的组织中。
当前设置
目前,我们在MySQL中有一个数据仓库,使用雪花模式对数据进行了标准化。
主要使用Simego-Ouvvi自动化服务器从其他SQL和MySQL数据库中收集数据。
我们使用Qlikview和PowerBI软件来可视化此数据。
这一切都很好,但是去年我们一直在努力开发一种事件驱动型方法。 我们的目标是基本上为组织中发生的所有事件创建事件,这意味着我们将创建更多数据。
此外,我们希望将内部数据与其他数据源(例如Google Analytics(分析))结合起来。
未来设置
我们已经开始使用apache Beam构建Rabbit MQ至BigQuery管道,以将数据流式传输到BigQuery数据集(目前称为“ datalake”)中。
到目前为止,我们希望一切顺利。
现在,为了能够将这些消息用于报告目的,我们需要转换这些事件消息。 我们的想法是查询消息并将所需的属性存储到称为“数据仓库”的数据集中。 我们想为此仓库使用一个雪花模式,其中包含一些嵌套字段。
但是如何实现呢?我已经使用BigQuery网络用户界面进行了一些查询,并且我猜想只使用计划查询是可行的。
但是,我们希望使用一个(或多个)工具,以便(按重要性排序):
我花了很多时间在谷歌上搜索,但是有太多的工具让我感到有些不知所措。 因此,任何帮助,建议或批评都将受到高度赞赏!