建议Datalake /数据仓库BigQuery设置

时间:2019-01-09 11:39:18

标签: google-cloud-platform google-bigquery data-warehouse data-lake

首先,对长篇故事预先道歉,有时会使用错误的术语。

希望有人可以向我们建议如何将BigQuery最佳地实施到我们的组织中。

当前设置
目前,我们在MySQL中有一个数据仓库,使用雪花模式对数据进行了标准化。

主要使用Simego-Ouvvi自动化服务器从其他SQL和MySQL数据库中收集数据。

我们使用Qlikview和PowerBI软件来可视化此数据。

这一切都很好,但是去年我们一直在努力开发一种事件驱动型方法。 我们的目标是基本上为组织中发生的所有事件创建事件,这意味着我们将创建更多数据。

此外,我们希望将内部数据与其他数据源(例如Google Analytics(分析))结合起来。

未来设置
我们已经开始使用apache Beam构建Rabbit MQ至BigQuery管道,以将数据流式传输到BigQuery数据集(目前称为“ datalake”)中。

到目前为止,我们希望一切顺利。

现在,为了能够将这些消息用于报告目的,我们需要转换这些事件消息。 我们的想法是查询消息并将所需的属性存储到称为“数据仓库”的数据集中。 我们想为此仓库使用一个雪花模式,其中包含一些嵌套字段。

但是如何实现呢?我已经使用BigQuery网络用户界面进行了一些查询,并且我猜想只使用计划查询是可行的。

但是,我们希望使用一个(或多个)工具,以便(按重要性排序):

  • 设计我们的数据仓库架构(我们在旧版本中使用MySQL工作台 数据仓库。远非完美,但足够出色。)
  • 比仅使用查询更容易地转换数据。
  • 应用版本控制。谁更改了内容,何时更改了
  • 在应用更改之前查看更改。
  • 应用连续部署。

我花了很多时间在谷歌上搜索,但是有太多的工具让我感到有些不知所措。 因此,任何帮助,建议或批评都将受到高度赞赏!

0 个答案:

没有答案