数据湖这个词在21世纪10年代初出现的时候,有些人认为它是在恰当的时间出现的一种恰当的架构。数据湖是一种非结构化的数据存储库,利用了新的低成本云对象存储格式(如Amazon S3),可以容纳来自网络的大量数据。
然而,对其他人来说,数据湖是一个很容易被嘲笑的“市场结构”,他们将其称之为“数据沼泽”。这个阵营中的许多人青睐长期存在、但并不便宜的关系数据仓库。
尽管存在怀疑,但数据湖已经发展和成熟,成为当今AI和分析领域的重要组成部分。
随着生成式AI让焦点重新回到了数据架构上,我们就来仔细研究一下数据湖是如何演化的,以及数据湖在推动高级AI分析方面所发挥的作用。
市场对数据湖的需求
对于那些在电子商务和相关领域追求数据驱动洞察的年轻公司来说,实施数据湖的好处是多方面的。
亚马逊、谷歌、雅虎、Netflix、Facebook和其他公司都构建了他们自己的数据工具。这些工具通常是基于Apache Hadoop和Spark分布式引擎的。这些新型系统处理的数据类型,要比当时分析数据仓库中现有关系数据类型的结构性更低一些。
对于那个时代的系统工程师来说,这种架构显示出了一些好处。“沼泽”或“湖泊”,它将成为搜索、异常检测、价格优化、客户分析、推荐引擎等先锋应用的基础。
这种更为灵活的数据处理,是成长中的网络巨头的首要需求。《Distributed Analytics》一书的作者Thomas Dinsmore称,文本、图像、音频、视频和其他数据“海啸”根本不适合关系数据库和数据仓库处理。另一个缺点是:随着每一批数据的加载,数据仓库成本也随之增长。
不管人们是否喜欢,数据湖如今仍在不断地填充数据。在数据处理过程中,数据工程师可以“立即存储”并决定以后如何处理数据。不过,基本的数据湖架构已经扩展为更高级的数据发现和管理功能。
这一演变趋势是由自建解决方案以及Databricks、Snowflake等一流初创公司的解决方案引领的,但还有更多公司参与其中。随着数据中心规划人员着眼于新的AI领域,各种架构如今也在受到密切关注。
数据湖演进:从湖泊到湖屋
数据湖这场竞赛的参与者包括Amazon Lake Formation、Cloudera Open Data Lakehouse、Dell Data Lakehouse、Dremio Lakehouse Platform、Google BigLake、IBM Watsonx. Data、Microsoft Azure Data Lake Storage、Oracle Cloud Infrastructure、Scality Ring和Starburst Galaxy等。
正如上述列举所示,趋势是将产品称为“数据湖屋”,而不是“数据湖”。这个名字更类似于用于处理结构化数据的传统数据仓库。是的,这代表了另一个牵强的类比,就像之前的数据湖一样,受到了人们的审视。
在数据市场中,命名是一门艺术。如今,那些解决数据湖最初缺陷的系统被指定为集成数据平台、混合数据管理解决方案等,但奇怪的命名约定不能掩盖功能方面的重要进步。
如今,在升级的分析平台中,不同的数据处理组件以流水线方式连接。新数据工厂所取得的成果可能集中在以下几个方面:
- 新的表格式:例如,Delta Lake和Iceberg是建立在云对象存储之上的,为Apache Spark、Hadoop和其他数据处理系统提供了ACID事务支持。经常关联的Parquet格式可以帮助优化数据压缩。
- 元数据目录:Snowflake Data Catalog和Databricks Unify Catalog等只是执行数据发现和跟踪数据沿袭的一些工具。后者特性对于确保分析的数据质量至关重要。
- 查询引擎:查询引擎为存储为各种类型和位置的数据的高性能查询提供了通用的SQL接口。PrestoDB、Trinio和Apache Spark就是其中几个例子。
这些进展使数据分析更有条理、更高效和更易于控制。
随之而来的,是向“现在摄取,以后转换”方法的转变。这是对数据仓库熟悉的提取转换加载(ETL)数据暂存序列的一种颠覆,现在解决方案可能是提取加载转换(ELT)了。
不管叫什么名字,这都是高级数据架构的决定性时刻,恰逢新的生成式AI出现了。但总体来看,它从垃圾抽屉柜到定义更明确的容器,这个演变发展的过程是很缓慢的。
数据湖安全和治理问题
“数据湖导致了大数据的惨败。它们刚出现时你什么都找不到,”SanjMo技术咨询公司负责人Sanjeev Mohan说,那个时候就没有治理或安全。
Mohan解释说,人们需要的是护栏,保护数据免受未经授权的访问,并遵守GDPR等治理标准,这意味着要应用元数据技术来识别数据。
“主要的需求是安全性。这就需要细粒度的访问控制——而不仅仅是将文件扔进数据湖就行了,”他补充说,现在有更好的数据湖方法可以解决这个问题,组织中的不同角色反映在不同的权限设置中。
这种控制方式在早期的数据湖中并不常见,早期的数据湖主要是“仅追加”系统,很难更新。
新的表格格式改变了这种情况。近年来,Delta Lake、Iceberg和Hudi等表格格式应运而生,在数据更新支持方面取得了显著的进步。
Sanjeev Mohan表示,Iceberg等工具的标准化和广泛可用性,为最终用户在选择系统时提供了更多优势,从而节省了成本并增强了技术控制。
用于生成式AI的数据湖
如今,生成式AI位列很多企业待办事项清单之首,而数据湖和数据湖库与这一现象是密切相关的。生成式AI模型要在大量数据上运行,与此同时计算成本可能会飙升。
随着领先科技公司的专家们参与其中,AI与数据管理之间日益紧密的联系揭示了未来的关键机遇和障碍:
“生成式AI将改变数据管理”
AWS数据湖和分析副总裁Ganapathy Krishnamoorthy这样表示。AWS是S3对象存储和大量云数据工具的创始方。
Krishnamoorthy表示,数据仓库、数据湖和数据湖屋将有助于改进生成式AI,但这也是一条双向道路。
生成式AI正在培育各种成果以大大增强数据处理过程本身,其中包括数据准备、构建BI仪表板和创建ETL管道。
“有了生成式AI,我们就有了独特的机会来解决数据管理模糊的问题,比如数据清理,”Krishnamoorthy说。“以前这一直是一项人类活动,而自动化是有挑战性的。而现在我们可以应用生成式AI技术来获得相当高的准确性。实际上,你可以使用基于自然语言的交互来完成其中一部分工作,从而大大提高工作效率。”
Krishnamoorthy表示,越来越多的企业将跨多个数据湖连接工作,专注于更高程度的自动化操作来增强数据的可发现性。
“AI数据湖将带来更具弹性的数据中心”
这是Hadoop先驱Cloudera公司首席产品官Dipto Chakravarty的观点,该公司还在不断地提供面向数据的新工具。
他说,AI正在挑战现有的游戏规则,这意味着数据湖工具可以缩小也可以扩大,支持数据中心和云端的灵活计算。
“在某些月份的某些日子,数据团队希望将东西移到本地。其他时候,他们又想将其移回云端。但是,当你来回移动所有这些数据工作负载时,就会产生负担,”Chakravarty说。
当CFO们开始关注AI的“税收”——也就是对支出的影响时,数据中心就成为了试验场。IT领导者将专注于把计算带入数据,实现真正的弹性可扩展性。
“AI基础模型的输出定制化是关键”
IBM Watsonx平台产品营销副总裁Edward Calvesbert表示,这就是赋予它业务语言的方式。IBM在21世纪10年代中期通过Watson认知计算工作推动了当今AI的复兴。
他说:“你可以使用数据定制AI,它将以你希望的方式从用例和质量角度有效地代表你的企业。”
Calvesbert表示,Watsonx数据是Watsonx生态系统中数据中央存储库,现在支撑着AI的定制化,这些模型可以共置在企业的IT环境中。
定制应该是和新AI时代的数据治理相辅相成的。他说:“治理措施提供了生命周期管理和监控护栏,确保遵守你自己公司的政策以及任何监管政策。”
“更多本地处理即将到来”
这是Starburst公司董事长兼首席执行官Justin Borgman的说法,该公司将Trino SQL查询引擎的早期工作转化为成熟的数据湖屋产品,可以从湖屋之外提取数据。
他说,精心打造的数据湖和湖屋对于支持AI工作负载(包括与生成式AI相关的工作负载)来说至关重要,我们将看到,人们对混合数据架构的兴趣激增,一部分原因就是AI和机器学习的兴起。
“围绕AI的这种势头将把越来越多的数据带回到本地环境或者混合环境中。企业不会想把所有的数据和AI模型都发送到云端的,因为把数据从云端转移到云端的成本很高。”
Borgman指出,使用本质上与存储分离的查询和计算引擎是一种主导趋势,可以在人们已经拥有的多样化数据基础设施中以及跨多个数据湖发挥作用,通常被称为“将计算转移到数据”。
数据越多越好吗?
AI工作负载基于未分类的、不充分的、或者无效的数据,这成了一个日益严重的问题。但正如数据湖发展历程所表明的,这是一个可以通过数据管理解决的已知问题。
IT Market Strategy独立分析师Merv Adrian表示,显然,如果数据无法被理解,那么访问大量数据是没有用的。
“如果可以使用数据,数据越多总是越好的。但如果不能,数据就没有任何用处,”他说。
Adrian认为,Iceberg和Delta Lake等软件的定位是位于海量数据之上的一种描述层,将有助于AI和机器学习式的分析。投资于这些类型技术的组织,在进入这个美丽新世界时将获得优势。
但AI开发真正的好处,是团队在使用这些工具所获得的技能,Adrian说。
“数据湖、数据仓库及其数据湖屋分支使企业能够使用更多类型和更多数据量,这对生成式AI模型很有帮助,这些模型在对大型多样化数据集进行训练时会得到改进。”
如今,数据湖以某种形式存在。Mohan或许说得最好:“数据湖并没有消失。数据湖万岁!”