Datamart与报告Cube有什么区别?

时间:2008-12-11 21:03:46

标签: data-warehouse cubes datamart

这些术语遍布各地,我不知道清晰的定义。我很确定我知道数据集市是什么。我使用Business Objects和Cognos等工具创建了报表多维数据集。

我也有人告诉我,datamart不仅仅是一组立方体。

我也有人告诉我,datamart是一个报表多维数据集,仅此而已。

您理解的区别是什么?

8 个答案:

答案 0 :(得分:28)

Cube可以(并且按理说应该)意味着相当具体的东西 - 通过呈现OLAP工件的OLAP server,例如MS Analysis Services或Oracle(NEE海波)Essbase。但是,它也会被松散地使用。这种OLAP多维数据集使用多维数据集感知查询工具,这些工具使用与标准关系数据库不同的API。通常OLAP服务器维护其自己的优化数据结构(被称为MOLAP),尽管它们可以作为前端到关系数据源(称为ROLAP)或者以各种混合方式来实施(已知作为HOLAP

我尝试具体并使用'cube'专门用于引用OLAP服务器(如SSAS)上的多维数据集。

Business Objects的工作方式是通过一个或多个源查询数据(其可以是关系数据库,OLAP立方体,或平面文件),并创建一个存储器内数据结构称为MicroCube它用来支持交互式切片和骰子活动。 Analysis Services和MSQuery可以生成cube (.cub) file,可以通过AS客户端软件或Excel打开,并以类似的方式切片切块。 IIRC最新版本的Business Objects也可以打开.cub文件。

要迂腐我认为业务对象坐在一“半结构化报告”空间某处作为的ProClarity一个真正的OLAP系统,例如和自组织报告工具如Report BuilderOracle Discoverer或之间{ {3}}。查询面板的往返使得它作为纯粹的思想流OLAP工具有点笨拙,但它确实提供了传统报告所没有的交互水平。我看到业务的甜蜜点对象为坐在两个地方:工作人员不一定熟悉SQL即席报表和provding以对话形式发表了定期报告的,允许一些钻取到数据

Brio也是一个相当松散的术语,可以表示数据仓库系统的任何面向用户的数据访问介质。该定义可能包括也可能不包括报告工具和元数据层,报告图层表或其他项目,如多维数据集或其他分析系统。

我倾向于将数据集市视为完成报告的数据库,特别是如果它是整个数据仓库架构中易于定义的子系统。但是,将其视为面向报告层的用户是非常合理的,特别是如果存在允许最终用户直接获取数据的特定报告工具(如Business Objects或OLAP系统)。

答案 1 :(得分:9)

术语“数据集市”已变得有些含糊不清,但它传统上与组织信息系统的面向主题的子集相关联。数据集市并未明确暗示存在多维技术(如OLAP),数据集市并未明确暗示汇总数值数据的存在。

另一方面,立方体倾向于暗示使用多维命名法(通常是OLAP技术)呈现数据,并且数据通常被概括为多个层次结构的交叉点。 (即你的家庭的净资产与你的个人净资产以及介于两者之间的一切)通常,“立方体”意味着非常具体的东西,而“数据集市”往往更为一般。

我想在OOP中说你可以准确地说数据集市“有一个”立方体,“有一个”关系数据库,“有一个”漂亮的报告界面等等......但是它说的不太正确任何一个单独的“是一个”数据集市。数据集市这个术语更具包容性。

答案 2 :(得分:4)

顾名思义,立方体是一种结构化的多维数据集(通常是三维,每个维度代表一个立方体的三面)。数据集市只是一个容器而不是一个结构本身,尽管它包含在维度和事实中平面组织(如表)的数据集。

多维数据集的结构使得可以轻松地沿着多维数据集的各个维度可视化或概念化数据。因此,大多数业务分析师或开发人员发现查询和与多维数据集交互很容易。

由于数据集市只是一个包含大量表的容器;在查询和分析数据之前,用户需要首先概念化和理解维度结构。

答案 3 :(得分:3)

数据集市传统上意味着静态数据,通常是日期/时间导向,分析师用于统计,预算,绩效和销售报告以及其他计划活动。

Cube是一个OLAP数据库,它非常彻底地将OLTP数据转换为静态的,面向日期/时间的模式,该模式使用非SQL的查询语言,但专门用于回答数据集市类型问题。它使用诸如度量,维度,星型模式等术语,而不是表,列和行。最熟悉的类比可能是电子表格中的数据透视表。

答案 4 :(得分:3)

数据集市是特定业务流程的数据集合。与数据的存储方式无关。与具有行和列的表不同,多维数据集以特殊方式(多维)存储数据。 olap数据库中的多维数据集就像传统数据库的表。数据集市可以包含表格或多维数据集。多维数据集使分析更快,因为它会提前预先计算聚合。

答案 5 :(得分:3)

记住:

数据仓库是从旧版和事务数据库系统中获取数据并以用户友好的格式将其转换为有组织的信息以鼓励数据分析并支持基于事实的业务决策的过程。 / p>

数据仓库是一个提取,清理,整合和交付的系统 将数据源化为维度数据存储然后支持和实现 为了决策目的进行查询和分析。

KIMBALL,例如始终将数据集市定义为基于原子数据基础的整个组织数据的面向过程的子集,并且仅依赖于数据测量事件的物理特性,而不是预期用户的问题。

  • 数据集市基于数据来源,而不是部门的数据视图。
  • 数据集市包含支持向下钻取到最低级别所需的所有原子细节。
  • 数据集市可以集中控制或分散。

正确定义

  • 基于流程
  • Atomic Data Foundation
  • 数据衡量

MISGUIDED DEFINITION

  • 部门基础
  • 仅汇总数据
  • 基于用户问题

答案 6 :(得分:1)

对我而言,数据集市只是以相对平坦,无法使用的格式转储数据的地方。

Cube正在抓取这些数据并让它跳舞。

答案 7 :(得分:1)

我同意马修的观点。对于存储在企业中各种应用程序中使用的通用数据和映射的任何数据源,我们倾向于使用术语“数据集市”。我们不会在数据集市中存储可测量的数据,因此我将数据集市视为多维数据集的多个数据源之一。然而,这就是我们这样做的方式。我确信没有什么可以阻止您在数据集市中存储可测量的数据。