译者 | 李睿
审校 | 重楼
数据网格作为一种新的数据管理方法,在业界越来越受到关注。然而在兴奋之余,人们对其复杂性以及能否兑现承诺表示担忧。本文将深入探讨数据网格的复杂性,解决围绕其是否过时存在的巨大争议,并探索它所带来的机遇和挑战。此外,还将讨论该行业可能缺少的内容以及可能阻碍其成功实施的潜在障碍。
数据网格:民主化和可扩展数据架构的范例
经常使用的“数据网格”这一术语是什么意思,为什么要考虑实现数据网格?
类似于软件工程团队如何从单片应用程序过渡到微服务架构,数据网格代表了微服务的数据平台。数据网格的灵感来自软件建模专家Eric Evans的“领域驱动设计”理论,该理论主张与特定业务领域保持一致的灵活和可扩展的软件开发,它提供了一种类似的方法。
与传统的单片式数据基础设施不同,传统的单片数据基础设施在集中的数据湖中处理数据消耗、存储、转换和输出,数据网格支持分布式、特定领域的数据消费者。它将“数据视为产品”,每个领域都负责管理自己的数据管道。
关键是,根据数据网格原则,领域团队承担底层平台或数据存储层的所有权,这引发了一些争议。这些领域通过通用互操作层连接起来,遵循一致的语法和数据标准。虽然可能会出现一些基础设施重复,但某些团队已经采用了更集中的平台,从而产生混合的“数据网格”结构。
在自助服务商业智能时代,许多企业宣称自己是数据优先的组织,这有些令人尴尬。然而,并不是所有这些公司都优先考虑其数据架构的民主化和可扩展性。
行业领先的企业认识到数据的变革潜力。例如,一些首席执行官成为Snowflake和Looker等技术的早期采用者,或者首席数据官(CDO)领导团队进行了关于数据管理最佳实践的培训,而首席技术官(CTO)则投资了专门的数据工程团队。尽管如此,数据团队都渴望一种更简单的方法来满足企业不断增长的需求,从处理连续的特殊查询到通过集中的提取、转换、加载(ETL)管道管理不同的数据源。
在追求民主化和可扩展性的基础上,人们意识到,当前的数据架构可能难以满足企业不断发展的需求,通常仅限于孤立的数据仓库或实时流功能有限的数据湖。
幸运的是,有一种解决方案可以为数据管理提供一种全新的视角——数据网格,这是一种在整个行业掀起波澜的架构范式。
值得注意的是,数据网格经常与“数据结构”这一术语混淆,“数据结构”是由Forrester公司分析师在世纪之交提出的。数据结构包含由虚拟管理层链接的现代数据平台组成的各种异构解决方案。然而,它并没有像数据网格那样强调去中心化和领域驱动的架构。
数据网格的消亡是炒作还是现实?
在社交媒体讨论领域,已经有人猜测数据网格将会消亡。数据网格是由ThoughtWorks公司前首席顾问Zhamak Dehghani于2019年提出的,他提出了一种通过分布式架构管理分析数据的新方法。通过使最终用户能够直接访问和查询原始位置的数据,数据网格消除了在数据湖或数据仓库中进行集中的需要。在这种模式下,数据被视为一种产品,其所有权归属于最密切参与其消费和理解的团队。
引入这个概念是为了解决企业所面临的挑战,这些挑战依赖于集中式数据平台架构,提供可扩展的解决方案,并通过及时决策和为民主化数据拥有数据产品的交付。数据网格解决了与大规模数据可用性和可访问性相关的问题,使业务用户和数据科学家能够从不同的数据源中提取、分析和操作有价值的见解,无论其位置如何。此外,它不需要专业数据团队的持续干预。
虽然数据网格是一个相对较新的概念,但围绕其消亡的讨论已经引起了人们的关注。以下深入探讨导致这样的怀疑日益增长背后的原因。
Cloudera数据平台促进了数据网格架构的关键原则,即领域所有权、数据即产品、自助服务平台和联合治理。
数据网格的复杂性:超越技术层面
数据网格不仅仅是技术方面的问题;它包含了数据管理的核心原则。它包括按领域管理数据、将数据视为产品、启用自助服务数据平台以及实现联合计算治理。这些支柱构成了数据网格的基础,并塑造了其整体价值主张。
- 面向领域的数据所有者和管道:在数据网格架构中,数据所有权在负责将其数据作为产品提供的领域数据所有者之间联合起来。这种方法支持跨不同位置的分布式数据之间的通信和协作。
虽然数据基础设施负责为每个领域提供必要的解决方案来处理数据,但领域本身管理数据的摄取、清理和聚合,以生成业务智能应用程序可用的资产。每个域都拥有自己的提取、转换、加载(ETL)管道,而一组适用于所有领域的功能处理原始数据的存储、编目和访问控制。一旦数据被提供给特定的领域并被转换,领域所有者就可以利用它来满足他们的分析或操作需求。数据沿袭在理解整个组织的消费模式和支持向更分散的结构过渡方面起着至关重要的作用。
- 自助服务功能:数据网格利用面向领域的设计原则提供自助数据平台,允许用户抽象技术复杂性并专注于其特定的数据用例。数据网格将与领域无关的数据基础设施功能集中到一个共享平台中,以解决在每个领域中维护数据管道和基础设施所需的重复工作和技能问题。这个中央平台处理数据管道引擎、存储和流基础设施。与此同时,每个领域都利用这些组件来运行定制的ETL管道,提供必要的支持来服务于它们的数据,同时保持流程的自主性。
- 通信的互操作性和标准化:每个领域的核心是一套通用的数据标准,可在需要时促进领域之间的协作。由于某些数据(包括原始数据源和经过清理、转换和服务的数据集)对多个领域变得有价值,因此跨领域协作是必不可少的。数据网格通过标准化格式、治理、可发现性和元数据字段以及其他数据特性来实现这一点。此外,与单个微服务类似,每个数据域定义并同意它们向其消费者保证的服务水平协议(SLA)和质量指标。
- 面向领域的数据治理:在数据网格架构中实施面向领域的数据治理方法,以确保符合全球和监管约束和政策。这种方法利用联合服务来保护企业的数据和系统。
联合治理模型允许实施数据保护措施,同时适应每个领域的独特需求。它确保根据适用的法规和策略保护数据和系统,为在域级别管理数据隐私、安全性和遵从性提供框架。
通过实现联合治理,数据网格架构促进了数据治理的结构化和协调的方法,支持对数据资产的有效管理,同时保持对相关法规和策略的遵从性。
对领域名称所有权的关注
数据网格的一个关键问题在于领域所有权的概念。虽然让各个业务领域拥有和管理自己的数据似乎很有吸引力,但这也引发了潜在的孤岛和碎片化问题。在处理企业范围的数据治理或主数据管理时,领域的概念可能导致数据视图的不完整。在授权领域所有者和确保跨域数据协作之间取得平衡是一个需要解决的挑战。
数据网格的模糊参数
理解数据网格的一个重大挑战是需要特定的指导方针和参数。围绕数据网格使用的语言通常围绕着新的思维方式和不同的数据处理方式。虽然提到了联合数据存储和数据虚拟化等概念,但缺乏明确的实现指南。这种模糊性使得企业在采用数据网格时难以弥合理论与实践之间的差距。
数据网格“消亡”背后的现实
2022年6月,调研机构Gartner公司发布了《2022年炒作周期数据管理》,该报告根据采用水平和预计的主流采用时间表评估了技术的成熟度。这个周期有助于数据和分析领导者识别有前途的技术,并确定评估和采用的合适时机。
根据这份报告,数据网格目前处于“创新触发”阶段,尚未达到“膨胀预期的峰值”。根据预测,它将在达到平台期之前过时。
Gartner公司的分析师Mark Beyer、Ehtisham Zaidi和Robert Thanaraj量化了数据网格的感知效益,并指出其在目标受众中的市场渗透率也相对较低,在1%到5%之间。围绕数据网格的炒作源于声称它解决了集中式数据仓库、数据湖和数据中心的挑战。
为什么会发生这种情况?
Gartner公司解释说,数据网格解决方案利用业务应用程序以去中心化的方式捕获和分发数据。在通常情况下,当集中式方法未能产生令人满意的结果时,通常是由于实施和交付方面的挑战而采用分散的数据管理方法。然而,随着支持集中式数据访问的技术和解决方案的进步,像数据网格这样的分布式方法预计将在企业IT中失去流行性。
在这份报告发表之后,行业专家对Gartner公司的观察结果表示支持和反对。Data Mesh Radio主持人Scott Hirlman批评Gartner公司对供应商和技术的偏见,声称数据网格不太可能过时。
Gartner公司前分析师、现任Profisee公司数据策略主管Malcolm Hawker为Gartner公司的观点进行了辩护。他澄清道,Gartner公司并不认为数据网格目前已经过时,与其相反,这张图表预示着未来的过时。Hawker表达了Gartner公司的理念,即数据结构将成为主导的数据管理架构模式,最终使数据网格过时。
数据网格和核心原理与技术的融合
业界厂商正在努力解决如何将数据网格的核心原则和理论与技术和流程的实际方面相结合的问题。虽然将数据视为产品并接受以领域为中心的所有权的想法很有吸引力,但实际的实现和标准化提出了重大挑战。企业必须在采用数据网格原则和确保他们拥有正确的工具、技术和流程来有效地支持它之间找到平衡。
从过去的错误中吸取教训
数据网格是分散数据管理的众多尝试之一。根据以往的经验,例如从集中式数据仓库到以领域为中心的方法的转换都面临着挑战。必须从过去的错误中吸取教训,并评估技术的进步和日益加深的理解是否能够克服以前面临的障碍。
需要明确和解决棘手的问题
为了确保数据网格的成功,需要明确其原则、治理模型和跨功能数据的处理。需要解决一些棘手的问题,例如如何处理跨多个领域域的关键数据域(如客户或产品)。有了这些问题令人满意的答案,数据网格的实用性和有效性就有了信心。
可观察性在克服数据网格挑战中的作用
数据网格架构概念为数据行业带来了令人兴奋的机会和关注。一些个人和组织担心与数据网格中自主性和民主化增加相关的潜在风险,特别是在数据发现、健康和管理方面。
然而,更仔细的研究表明,数据网格架构实际上通过强制要求可扩展和自助数据可观察性来解决这些问题。数据可观察性对于领域在数据网格框架内真正拥有其数据变得至关重要。这种自助功能包括各种功能和标准化,包括静态和动态数据的数据加密、数据产品的版本控制、数据产品架构、数据产品发现和目录注册、数据治理和标准化、数据产品生产、监控和警报的数据沿袭、数据产品日志,以及衡量数据产品质量的指标。
当这些功能和标准化结合在一起时,就建立了一个健壮的可观察性层。数据网格范式强调了单个领域处理数据可观察性的标准化和可扩展方法的重要性,使团队能够解决关键问题,例如数据新鲜度、数据完整性、跟踪模式更改以及理解上游和下游管道的依赖关系。
展望未来,数据网格将会继续发展,数据网格的创始人Zhamak Dehghani宣布成立Nextdata公司在数据行业掀起了波澜。这家初创公司旨在通过提供对数据产品内置信任的愉快体验,增强数据开发人员、用户和所有者的能力。
随着数据网格趋势的发展,必须在实现完全去中心化的数据网格方法和在其架构中纳入卓越中心的元素之间找到平衡。为了探索对数据网格的进一步见解和观点,可以深入研究Zhamak Dehghani、Sven Balnojan的《数据网格在行动》一书、Kevin Petrie的《数据网:重新思考数据集成》和Joe Gleinser的《你的应用程序应该考虑数据网连接吗?》中的智慧和知识。
结论
数据网格为数据管理提出了一个有趣的概念,但在真正站稳脚跟之前,它面临着巨大的挑战。该行业需要解决领域所有权问题,定义更精确的参数,并找到将核心原则与技术相结合的方法。通过从过去的经验中学习并提出棘手的问题,可以驾驭数据网格的复杂性,并确定其在数据管理策略中的可行性。
原文标题:The Great Data Mesh Debate: Will It Sink or Swim?,作者:Priya Kumari