数据仓库
互联网和大规模技术开发使得当今世界中数据的爆炸性增长。企业决策者希望研究数据之间的关系,点击数据的隐藏功能并分析和探索更深层次的数据。
但在企业的不同数据库之间,数据共享是不可能的,由于同一企业中的多个数据库,数据库之间的集成具有大量挑战,特别是在巨大数据的合并和存储方面
操作数据库可以分散在Microsoft SQL Server数据库或Oracle数据库周围,数据仓库目标是提取多个数据库并累积从数百个千兆字节的数据进行处理,以便根据所需格式,进程进入必要的转换,清洁,清洁,最后将数据加载到仓库中。
根据IBM研究人员(Barry devlin和Paul Murphy)“数据仓库是一个主题导向的,集成,相对稳定的数据收集,反映了历史变化,用于支持管理决策”
- By Nature,数据仓库用于补充管理的决策,它被用作业务数据操作的分析,但它与企业的运营数据库不同。
- 数据仓库是将多个异构数据源的有效集成和管理到一个存储库中,它是在历史数据方面组织的,并且在数据仓库中,不需要对数据的交易修改。
在数据仓库出现后,企业的信息需求已经远离关系数据库到决策支持系统。该决策支持系统实际上是我们称为商业智能(BI)。
数据库
与数据仓库数据集合的比较可以被理解为“小数据仓库”,它不是根据异构数据库,而是仅在单个操作数据库实例上,数据范围不够宽。
数据集市专门针对数据集市的特定业务运营(销售,生产)用户快速找到所需的数据,在数据集市中,您只需要设计和构建数据库表,填充数据库表与相关数据,决定谁可以访问数据集。
数据集市可分为两种类型:
- 第一个是独立数据集市,ETL架构和数据库的来源属于一个实体。
- 第二个是依赖数据集市,在这种类型的数据集市中,进入数据主要来自其他来源,主要来自数据仓库。Datamart可以简单地为用户提供数据仓库的信息子集。
数据湖
它与自然状态的流动水有多像流动的水,数据流从多个源系统到这个湖,用户可以获得他们想要的特定数据,验证,弥补和其他双务任务将在数据湖外执行。
数据湖可以以以下功能实现的方式开发:
- 它将导入来自源系统的所有数据,源系统没有数据丢失。
- 数据存储在其原始状态下,而不会转换原始数据。
- Data Lake Schema准确符合数据分析要求。
- 数据湖有锁,控制和治理
操作数据存储
操作数据存储(ODS)是用于交易处理数据的数据库,ODS中的数据主要是原始数据,来自ODS的数据总是向数据仓库或数据集市移出以进行进一步处理。在ODS中,您可以查询数据,只能访问业务运营中的最新开发
原文链接:
https://medium.com/dataprophet/data-warehouse-data-mart-data-lake-and-operational-data-storage-3a69f8701466