新数据仓库模式设计有利于企业用户

数据库 数据仓库
业务分析师的目标之一是用数据讲述完整的故事,提供有关业务如何进行或如何改进的见解。这是通过商业智能仪表板来实现,该仪表板从数据仓库提取数据。

业务分析师的目标之一是用数据讲述完整的故事,提供有关业务如何进行或如何改进的见解。这是通过商业智能仪表板来实现,该仪表板从数据仓库提取数据。

当尝试关联数据仓库中不同仪表板的信息时,企业用户开始面临挑战。这通常需要求助于数据工程师,数据工程师需要在数据仓库中创建数据集市–由多个星形图组成,而这可能导致数据丢失或数据重复。

这种复杂性促使Francesco Puppini探索可更好地支持最终用户的数据仓库模式设计。他在与Bill Inmon合著的《The Unified Star Schema: An Agile and Resilient Approach to Data Warehouse and Analytics Design》一书中探讨了这一问题,该书由Technics Publications出版。

什么是星型图和雪花图?

在讨论Unified Star Schema之前,让我们看一下星型模式本身。

星型模式是最简单的尺寸建模形式。该模式由事实和维度组成。事实以事件为中心,而维度则引用与事实有关的信息。维度以类似于星型的方式与事实相关。

此外,雪花模式将维度与其他维度相关联并继续分支。Puppini认为,当数据没有问题时,雪花模式最适合。

他说:“但数据总是有问题。“

Unified Star Schema的好处

Puppini说:“当你将数据写入数据库时​​,它是按某种方式组织。但是当你阅读它,最好以一种不同的方式组织它。”

对于最终用户而言,星型和雪花模式的主要挑战是,企业用户在寻找见解方面缺乏独立性。为了使用此类数据仓库模式设计对数据执行复杂查询,最终用户需要数据工程师手动关联数据表。Puppini说,这就像每次需要一杯水时都叫水管工一样。此外,当关联不兼容表时,整合将事实表与联接通常会导致重复数据。

他说,数据重复的核心问题是扇形陷阱。当两个或多个一对多联接链接时,就会发生扇形陷阱。这会与数据产生冲突,从而导致数据重复。从历史上看,这是通过手动重复数据删除或这些临时连接解决。

Unified Star Schema的关键是连接事实表的桥接。在书中,Puppini将桥接与电话总机进行比较。在Unified Star Schema中,桥接处于中心位置,所有事实表和维度表围绕它,每个表都连接到该桥接。然后,这限制了对数据的转换次数。

Puppini说:“现在的数据仓库问题是它们不堪重负,正在过度转换。”

通过使用桥接并执行联合而不是联接,这使用户可以访问数据而无需进行转换。

他说:“你转换数据越多,你就越会陷入混乱。我只是采取最少步骤以将信息整合在一起。”

请点击此处查看由Technics Publications出版的Bill Inmon和Francesco Puppini撰写的《The Unified Star Schema》的摘录,以了解有关Unified Star Schema的部署和用例的更多信息。

 

责任编辑:赵宁宁 来源: TechTarget中国
相关推荐

2017-06-13 16:19:12

2018-04-02 15:29:54

迅雷链克

2009-08-11 09:52:05

微软雅虎

2022-02-25 15:15:39

物联网云计算传感器

2011-04-12 13:55:53

Appstore fo亚马逊Android

2019-01-21 08:17:09

农业物联网IOT

2013-05-15 14:49:01

数据中心网络托管大数据

2017-08-22 11:55:53

大数据信访检察院

2016-01-04 13:57:23

云计算云存储

2009-05-04 17:08:13

开源ApacheGPL

2010-09-21 14:58:23

2022-07-01 12:33:45

智能制造人工智能环境

2020-06-22 21:37:53

工业物联网运营IIOT

2019-06-28 08:09:16

物联网安全物联网IOT

2022-05-19 08:28:52

xenomai实时性CPU

2022-04-27 15:41:23

5G运营商无线电频谱

2020-09-15 12:22:12

物联网

2020-12-17 19:04:56

6GHzIMT频谱数字化

2020-11-13 10:31:01

混合云托管云计算

2020-03-19 12:15:09

点赞
收藏

51CTO技术栈公众号