混合数据湖的好处

大数据 数据湖
本文介绍了如何使用混合数据湖。数据湖使您的公司能够灵活地以数据形式捕获业务运营的各个方面,同时保持传统数据仓库的生命周期。

在存储大数据时,数据湖和数据仓库都是既定术语,但是这两个术语不是同义词。数据湖是尚未确定用途的大量原始数据。另一方面,数据仓库是用于特定目的的结构化过滤数据的存储库。

[[376190]]

共同点

数据仓库和数据湖代表了一个中央数据库系统,可以在公司中用于分析目的。该系统从各种异构数据源中提取,收集和保存相关数据,并提供给下游系统。

数据仓库可以分为四个子过程:

  • 数据获取:从各种数据存储库中获取和提取数据。
  • 数据存储:包括长期归档在内的数据仓库中的数据存储。
  • 数据提供:向下游系统提供所需的数据,提供数据集市。
  • 数据评估:对数据库存的分析和评估。

差异性

数据仓库将经典的ETL流程与关系数据库中的结构化数据结合使用,而数据湖则使用诸如ELT的范式和读取模式以及经常使用的非结构化数据[2]。

> Differences Data Warehouse vs. Lake

在上方,您可以看到主要区别。您使用的技术也完全不同。对于数据仓库,您将使用SQL和关系数据库,而对于数据湖,您可能将使用NoSQL或两者的混合。

将两者结合在混合数据湖中

那么如何将这两个概念结合起来?在下图中,您可以从高角度查看架构。

该过程是将非结构化和未转换的数据加载到数据湖中。从这里,一方面可以将数据用于ML和Data Science任务。另一方面,数据也可以转换为结构化形式并加载到数据仓库中。从这里,可以实现通过数据集市和(自助服务)BI工具进行的经典数据仓库分发。

> Hybrid Data Lake Concept — Image from Author

可以用于此体系结构的主要技术例如:

  • 通过talend,Google Dataflow,AWS Data Pipeline进行ELT / ETL流程
  • 通过Data Lake-HDFS,AWS Athena和S3,Google Cloud Storage
  • 数据仓库通过-Google BigQuery,AWS Redshift,Snowflake

注意:诸如Google的BiqQuery或AWS Redshift之类的技术通常被视为数据仓库技术与数据湖技术之间的混合体,因为它们通常已经具有NoSQL的某些特征。

结论

本文介绍了如何使用混合数据湖。数据湖使您的公司能够灵活地以数据形式捕获业务运营的各个方面,同时保持传统数据仓库的生命周期。

原文链接:https://towardsdatascience.com/what-is-a-hybrid-data-lake-b7ef2c3cce0c

 

责任编辑:赵宁宁 来源: 今日头条
相关推荐

2016-02-18 10:27:39

数据

2011-03-15 09:20:37

混合数据库

2013-05-14 09:20:56

现代基础架构混合数据中心公有云

2022-06-28 12:02:11

ClouderaCDP混合数据

2017-06-13 16:03:35

混合云容器编排引擎

2017-11-30 11:36:15

混合数据中心环境

2022-09-26 11:01:11

ClouderaCDP数据编织

2015-11-18 16:52:29

多备份

2019-05-20 11:41:59

混合云云计算云计算提供商

2020-08-04 14:20:20

数据湖Hadoop数据仓库

2015-06-16 10:36:31

2022-11-09 16:30:12

2021-09-23 13:02:55

Check Point数据中心

2021-11-10 23:31:21

混合云云计算数据

2017-03-09 15:01:41

混合云企业好处

2020-09-15 12:56:00

数据湖架构

2022-08-18 11:12:51

Cloudera​数据湖仓SaaS

2017-12-26 08:44:06

数据中心趋势优化

2023-02-13 14:01:32

点赞
收藏

51CTO技术栈公众号