DataWorks:阿里全链路数据治理实践

数据库 新闻
本文将介绍阿里巴巴数据平台的发展历程以及阿里云全链路数据治理实践。

01 阿里巴巴数据平台发展历史与现状

1. 阿里巴巴数据平台发展的四个阶段

  • 第一阶段:2012年

图片

阿里巴巴数据平台发展的四个阶段中的第一个阶段大概在2012年。构建数据中台,一个强大的数据平台必不可少,数据平台也可称为数据中台的数据底座。阿里巴巴数据平台发展的四个阶段代表着阿里数据中台发展的四个阶段,这四个阶段可以看到阿里对整个数据系统的不断变革以及对数据高效应用的思路。

在第一个阶段,阿里的电商业务进入了一个爆发期,淘宝、1688等多个团队都是基于数据驱动,数据架构基本都基于IOT架构,核心系统都在Oracle上。2年时间内阿里已经建设了全亚洲最大的Oracle集群,但到2010年时Oracle已经无法满足公司业务计算的需求,不断出现数据延迟和计算错误,而且Oracle计算的成本很高,无法支撑业务发展,为此阿里计划构建下一代的数据平台,同时启动了云梯1和云梯2两个项目。

云梯1基于开源Hadoop的技术体系搭建,多个业务部门分别构建了自己的Hadoop集群,集群规模一度达4000台,那时候阿里巴巴也搭建了自己的一个数据同步引擎,也就是现在的DataX,以及第一代的任务调度引擎“天网”,这两个引擎构建了现在的DataWorks的基础服务,那时的DataWorks还没有UI,只是个命令行工具。

云梯2是基于阿里巴巴自研的一个大数据计算服务,也就是现在的MaxCompute,当时集群规模达到了1200台。这两个项目当时在阿里内部是竞争关系,并在内部引起了一场广泛的关于开源和自研的争议。

  • 第二阶段:2015年

图片

2012至2015年阿里电商业务飞速发展,同时也涌现出菜鸟、高德、钉钉等多个新兴业务,阿里内部也形成了多个不同架构的平台系统,然后导致数据孤岛现象的日益加剧,数据成本飙升。

2013年,云梯1和云梯2两个集群的规模达到瓶颈,很多业务因此无法继续开展,阿里集团已经没有办法同时去支撑两套技术路线的同时发展,此时需要做出一个抉择。当时云梯1的Hadoop集群遇到了无法突破5000台瓶颈,在业界也无先例,同时数据安全也是一个问题。最终阿里选择自研的云梯2,并通过“5K”项目突破了5000台集群的物理极限。

5K项目成功后阿里启动了“登月计划”将云梯1的Hadoop集群全面切换到MaxCompute集群。这期间DataWorks也推出了在线IDE,让数据开发从“命令行+本地IDE”时代进入WebIDE时代。

2015年,阿里云数加平台发布其核心产品正是MaxCompute和DataWorks。作为数据开发平台,面临既要支持集团内部数据的建设,又要支持阿里云上的公共云、专有云上的客户,阿里集团内部涌现多套的数据平台,包含对内支撑和对外服务。最终阿里巴巴面对数据平台的分与合,选择了建设集团统一数据开发平台,即将所有数据开发类工具整合到DataWorks。

  • 第三阶段:2018年

图片

2015年到2018年,数据中台方法论开始逐步建立,拉开了数据中台建设的大幕。2015年阿里宣布了数据中台建设战略,开始构建符合DT时代的“大中台、小前台”组织机制和业务机制,进行从业务数据化到数据业务化的转变。

随着计算和数据的不断增长,数据治理问题凸显,阿里巴巴开始思考如何将数据中台的方法论落地平台层,让平台可以更好的支持中台的建设。在数据平台侧,MaxCompute 达到了10万台集群规模,DataWorks构建大规模协同数据开发与治理的一站式能力,服务100+阿里集团BU、20万+阿里员工的取数用数需求。

  • 第四阶段:2021年

图片

2018年至2021年我们称之为云上数据中台与业务伴生的阶段,2018年后阿里的数据平台业务已经很成熟了,数据中台达到了一个正循环,可视为数据中台建设成功的标志。DataWorks支撑建设的数据中台全面服务业务、支持集团内300+数据应用、MaxCompute智能数仓让双11成为日常,目前已能够以一个比较低的成本实现支持业务的快速增长。

2. 阿里巴巴数据平台发展现状

  • “数据效率”成为核心指标

图片

企业数据中台建设的成功与否核心指标就是“数据效率”,阿里从数据规模与弹性、数据的成本、数据的正确性与可维护性、数据利用率四个方面来衡量数据效率,数据治理逐渐被提上日程。

02

阿里巴巴数据治理的实践

图片

阿里巴巴数据治理分为四个阶段,也是伴随着数据平台的发展阶段。

(1)第一阶段:数据稳定性治理

图片

第一阶段,也是首要要保障的问题,即数据稳定性。阿里巴巴通过以下几个方面来保障数据生产的稳定性。

① 稳定可靠的调度服务:通过阿里自研的天网调度系统能很好地支撑每日千万级别的任务量,并且成功了解决复杂依赖问题。

② 规范化数据开发运维:数据开发、生产环境隔离,确保线上生产的稳定性,任务发布也进行了独立管控,支持变更卡点和审批。

③ 基线监控:从业务视角定义任务优先级,实现资源管控。

④ 快速恢复:任务出错自愈,自动生成工单保证快速响应,任务诊断帮助定位原因,批量重刷数据以快速恢复。

⑤ 大促保障:全网强管控,问题节点治理,任务降级能力,分时调度等。

(2)第二阶段:数据规范治理

图片

第二阶段为数据规范治理。阿里巴巴通过数仓规范设计和开发来预防问题的发生,通过核心公共层来减少数据重复建设和确保口径一致性。基本思路是构建一个指标体系、设计数据模型、数据处理任务开发、数据服务开放。数仓中的核心公共层定义了一条门槛线,进入核心公共层的数据纳入强管控以确保数据的规范性。

(3)第三阶段:数据安全治理

图片

第三个阶段,数据安全治理。当前,数据安全已被提高到国家和社会的层面。数据安全治理主要从数据分类分级与权限控制、敏感数据发现与脱敏、数据风险审计、可信计算环境四个方面进行。这里主要提一下数据分类分级,我们支持数据自动打标(如通过血缘关系等),特殊的数据可由人工打标调整,然后基于不同标签对数据进行更合理管控和使用。

(4)第四阶段:数据成本治理

图片

第四个阶段,数据成本治理,这也是阿里巴巴近几年在持续做的事情。阿里做成本治理为四个步骤,即设定组织成本目标、培养个人成本意识(有工具督促)、计算存储成本并管控、成本治理评估与运营。阿里巴巴2020年成本治理成效显著,以10%的数据成本增长支撑了65%的业务增速。

(5) 数据治理总结

图片

阿里巴巴的数据治理主要从组织体系、数据资产治理方法论、平台工具支撑&运营三个方面保障。其中平台工具是基础,主要包含了DataWorks、 MaxCompute这两个平台的应用,皆在以上四个数据治理阶段发挥了重要作用,接下来将继续为大家解析DataWorks的核心能力。

03 基于阿里云DataWorks的全链路数据治理平台能力

1. 阿里云大数据平台业务全景图

图片

阿里云自研大数据产品体系主要涵盖了DataWorks、MaxCompute、Hologres、Datahub等产品,它集中存储和管理企业数据资产面向数据应用处理和分析数据将数据转换为业务洞察。通过与阿里云内、外部服务灵活组合,可构建丰富的数据应用。全托管的数据与分析解决方案,可简化平台运维、管理投入,提升面向业务的服务能力,加速数据价值实现。

2. DataWorks产品架构

图片

DataWorks作为一站式数据开发和治理平台,包含了数据集成、规范设计、数据开发、数据治理、数据分析、数据服务、开放平台等产品服务,覆盖了大数据研发和治理的全流程和全生命周期。在大数据引擎支持方面,DataWorks可以支持MaxCompute、实时数仓Hologres、开源大数据平台EMR和CDH/CDP,可以很好的适配市场上的主流大数据平台服务。

3. DataWorks 数据治理产品能力

上述的阿里巴巴数据治理的四个阶段,DataWorks都提供了相应的产品工具能力支撑。

① DataWorks任务调度与运维

图片

DataWorks提供了超大规模任务调度能力、可视化工作流编排、复杂调度逻辑控制、离线&实时任务运维、可视化任务运维操作、任务智能运维诊断等功能。DataWorks的任务调度系统伴随着阿里巴巴10多年数仓发展和“双11”的考验,性能与稳定性业界领先,是保障数据生产稳定产出的基础。

② DataWorks数据质量管理

图片

DataWorks数据质量管理提供了对数据完整性、有效性、准确性、唯一性、一致性和合理性的全面评估和保障能力。支持灵活的质量规则定义,包含37种内置模板规则和自定义规则,提供智能规则自动推荐、动态阈值智能预测,通过机器学习来智能确定规则的合理上下限值,减少数据探查的成本,提高质量规则配置效率。同时支持选择是否阻塞下游任务运行以避免脏数据污染。

③ DataWorks数仓规范设计(数据建模)

图片

DataWorks数据建模产品体系包含了数仓规划、数据标准,维度建模和数据指标。提供了多种建模交互方式,包含可视化数据建模,导入Excel数据模型文档,通过FML(Fast Modeling Language,一种由DataWorks开源的类SQL数据建模语言)语义化数据建模,并且能够自动生成ETL伪代码,实现数据建模与数据开发的无缝衔接。DataWorks数据建模支撑了阿里集团数仓的核心公共层建设,是OneData方法论的产品化实现。

④ DataWorks元数据管理(数据地图)

图片

元数据管理可以说是数据管理和数据治理的基础。DataWorks数据地图提供了数据发现、数据类目、数据检索、数据详情、数据预览与探查、数据血缘与影响分析功能。支持异构数据源的元数据自动采集并自动构建数据目录,支持表级及字段级数据血缘,并基于数据血缘进行影响分析,从而推断数据变更可能造成的影响范围,以此来指导数据开发人员进行数据变更影响评估。

⑤ DataWorks数据安全管控

图片

DataWorks与MaxCompute提供了金融级数据安全管控能力,包含细粒度数据权限控制、数据分类分级、敏感数据发现与脱敏、数据审计等,覆盖了数据传输安全、数据存储安全、数据处理安全和数据交换安全的全链路数据安全服务。

⑥ DataWorks主动式与可持续数据治理

图片

DataWorks在过去多年发展迭代中,沉淀了非常多的数据治理产品工具,但要把这些工具用好,依然依赖于人的经验能力。很多企业在数据治理的过程中,也面临数据治理的成效不易评估,治理团队业绩不好衡量,从而导致数据治理过程往往沦为项目制、运动式,不可持续。为解决这样的问题,DataWorks全新推出了数据治理中心产品,通过问题驱动的方式,帮助企业主动发现待治理问题,然后引导用户优化和解决问题,再提供数据治理成效的评分模型,帮助企业定量评估数据治理的健康度,从而实现有效的、可持续运营的数据治理过程。

DataWorks数据治理中心产品提供了五个维度的待治理问题的发现能力,包含研发规范、数据质量、数据安全、计算资源和存储资源。针对这五个维度,产品内置了非常丰富的治理项扫描机制,能够在事后识别出问题。同时,产品也内置了检查项拦截机制,在事前和事中提前发现和拦截问题。

针对这五个维度,DataWorks结合在阿里巴巴内部的实践,设计了一套健康分评估模型,可以有效地定量衡量数据治理的成效。企业可以通过数据治理健康分,快速识别自身短板,然后针对性进行治理,并通过健康分实现评比和考核,从而达到可持续可运营的数据治理,让数据治理过程有的放矢,不再无从下手。

4. DataWorks 开放平台助力企业实现个性化数据治理

图片

企业的数据治理过程并非标准化的,DataWorks数据治理中心提供的产品能力必然也无法完全满足企业数据治理中的所有需求。因此一套完善的数据治理平台必须要支持插件化机制,允许企业自定义数据治理插件。

DataWorks全新升级了开放平台,在原有OpenAPI基础之上,新增了开放事件(Open Event)、扩展点(Hook)和扩展程序(Extensions)能力。您可以订阅DataWorks平台中开放的事件消息。DataWorks对核心流程中的事件提供了扩展点机制(Hook),当事件发生时,系统会自动中断流程,同时等待您接收到事件消息并对事件消息进行自定义处理,最后通过OpenAPI将您的处理结果回调给DataWorks,DataWorks将根据您的自定义处理结果选择执行或者阻断后续流程,从而实现您对DataWorks处理流程的自定义控制。您订阅事件、处理事件和回调事件处理结果的程序服务称之为扩展程序,即插件。通过这种方式,您可以实现各式各样的自定义数据治理插件,例如任务发布检查插件、计算费用消耗检查插件等。

04 下一代数据平台的智能进化方向

图片

数据湖是一个宽进宽出,相对协同比较松耦合的系统。数据仓库是一个严进严出,比较严格紧耦合的系统。数据湖是数据先进来,然后再开始用,所以是属于事后建模,可以存储结构化、半结构化、非结构化数据。数据仓库是一个严格的系统,所以需要事前建模,数据经过转化清洗进到仓里面,存储类型变为结构化或者半结构化。数据湖是提供了一套标准的开放接口,来支持更多的引擎,像插拔式的插到这个体系里面,所以它是向所有的引擎开放。数据仓库向特定引擎开放,但是恰恰因为数据仓库是一个自闭环系统,它的计算引擎、存储引擎、元数据之间是可以做到非常深度、垂直的优化,可以获得一个非常好的性能。整体上来讲,数据湖更偏灵活性,数据仓库更偏企业级能力。

既然数据湖和数据仓库在企业发展的不同阶段均发挥着关键的作用,那么有没有一种技术或者架构可以同时发挥两者的优势?通过我们对业界的洞察以及阿里云自身的实践,我们认为湖和仓正在发生融合,湖仓一体新的数据管理架构可以很好的解决这个问题。湖仓一体作为下一代数据平台架构,是满足复杂现状下架构的灵活升级。

MaxCompute湖仓一体支持连接Hadoop数据湖和OSS数据湖,DataWorks提供了湖仓一体化的开发和管理的升级,支持分钟级自助打通湖和仓,屏蔽了很多底层的配置细节,从而实现快速的业务洞察。

今天的分享就到这里,谢谢大家。

责任编辑:张燕妮 来源: DataFunTalk
相关推荐

2023-06-19 07:27:50

网易严选全链路

2023-02-08 19:32:27

大数据

2023-08-07 08:40:24

2020-09-11 10:29:16

腾讯云WeData 全链路

2024-07-09 10:53:35

2023-10-09 07:24:58

数据稳定性治理数据处理

2023-07-20 15:46:24

2020-02-26 14:46:39

DataWorks阿里数据开发

2023-01-31 15:27:13

数据治理数据管理

2023-06-01 08:54:08

RabbitMQ确认机制生产端

2021-08-06 11:47:17

食品安全

2023-06-12 07:44:21

大数据数据治理

2022-12-30 15:27:13

2024-03-26 06:46:52

大数据数据治理大数据资产治理

2024-04-22 07:56:32

数据仓库数据中台数据服务

2023-04-10 07:34:30

2024-01-11 08:15:52

大数据成本治理Hadoop

2021-06-11 13:56:27

大数据DataWorks数据开发

2023-10-26 06:55:46

大数据数据仓库
点赞
收藏

51CTO技术栈公众号