从阿里巴巴数据治理到瓴羊Dataphin-51CTO.COM

我们深知，企业需要一套完善的数据技术与工具，实现数据合规采集、存储、计算、建设和管理，利用数据思维对业务运营与管理场景问题精细洞察，学会利用数据资产改善能效，以此循环往复，推动数据资产的持续沉淀，形成企业特有的数据资产体系。

基于阿里巴巴内部的实践经验和成果，面向不同行业的实际业务场景Dataphin 应运而生，作为阿里巴巴统一方法论的工具化沉淀，Dataphin 希望能帮助企业探索更加复杂与多样的数据建设之路。

本次内容将以阿里巴巴数据治理的实践和统一数据治理方法论工具化沉淀的Dataphin为核心内容为大家详细介绍。

一、数据建设的三个阶段：从在线开发到平台构建到数据综合治理

从阿里自身的发展历程来看，数据建设可以分为以下三个阶段。

第一个阶段：在线开发。

在这个阶段更多是把所有数据搬上来，通过数据研发来满足基本业务需求和开发需求。数据规模相对不大，这一阶段的目标主要还是以响应需求为主。

第二阶段：数据平台构建与管理。

随着淘宝业务不断增长，对数据价值的诉求逐步加强，数据服务业务的场景也不断扩大。数据的多样性、数据处理的复杂度带来数据处理的作业呈现较大规模或较高水平的要求。这个时候就需要有一个数据平台来支撑数据仓库的开发。所以这一阶段的目标就是做数据平台的构建与管理，它对应的顶层和核心是要支持类似于生意参谋这样的面向于大量商家的应用。

第三阶段：数据综合治理。

随着阿里集团的业务版图越来越大，我们的业务数据也越来越多，只做一个数据平台管一类数据，已经完全不能满足需求了。数据服务业务输出持续增多，业务数据化运营意识逐渐成熟，对数据价值的期待也越来越高，这个阶段就需要数据综合治理，以数据资产为中心开展所有的数据工作，以业务可理解、便捷可消费及服务业务的资产化组织和管理方向。所以这个阶段需要有更匹配的产品，有更好的体系，以数据资产为核心来做数据中台的建设。

二、大数据建设，不仅仅是研发效能的问题

从阿里巴巴的业务角度来看，大数据的建设不单是研发效率的问题，不是只要有一个工具就能够提高研发的效率，而是需要有一套体系化、理论化的东西来支撑整个数据中台的建设，我们把它分成四个维度：

数据标准：由于多形态业务发展迅猛，烟囱式开发及局部业务服务支撑，导致同名指标不同口径的问题频发；历史不同业务系统逐步迭代上线，相同对象属性编码不一致等问题突出。只有知道要做什么，明确每一种数据的口径表示，再着手业务和产品。
数据质量：需要有一种工具能保障最终输出的数据是符合这个口径的。重复业务建设导致任务链冗长、任务数繁多，计算资源紧张，数据时效性不好；另外，口径梳理定义的文档与开发代码脱节，数据准确性保障风险高，所以要保证数据质量就是要纠正数据，如果数据口径不对，需要有处理机制来做纠偏。
需求响应：烟囱式开发的开发周期长、效率低，面向应用的服务化不足，导致业务响应速度慢，业务不满且技术无沉淀；既懂业务又懂数据的人才不足，需求理解到开发实现涉及大量沟通。因为我们的数据工作还是要为业务服务，从业务的角度来看，没人不在意你使用什么工具，但是如果产品能够辅助提高需求响应的速度，那么将是一个非常有价值的事情。
成本资源：在做数据建设的时候还需要考量成本。烟囱式开发容易造成资源重复性浪费；上线难下线更难，源系统或业务变更不能及时反映到数据上，而且由于数据不标准，研发维护难上加难，大量无用计算和存储造成资源浪费。

不能为了把需求、标准、质量做得更全更快更好，就无限量地投入资源。在成本上也是需要去考量的，所以在数据治理的时候，需要综合这 4 个角度的指标来考察数据建设的成效。

三、阿里巴巴数据治理关键举措

将分散的数据集中管理，制定一套统一的管理标准，通过统一数据平台输出数据产品服务各个业务，整体从资源到资产进行转变。

1、工具+规范打造标准化采集

为支撑整个数据平台的建设，第一要务是打造标准。流量采集中，建立相应的日志埋点标准，将数据上传到日志采集中心，并通过各种采集工具、查看工具以及整套工具来管理和提升数据采集效率。同时，在埋点过程中，还需要制定相应规范并将其交予业务部门，这样业务同学才能看到相应埋点，并最终转换成实际数据。

2、闭环治理

在数据标准制定后，我们需要搭建整个数据治理的架构。这个架构分为多个部分，第一部分是内容治理。在这一方面，需要明确数据健康标准和数据治理对象，确定数据治理范围和相应的治理方案。而我们已经不再采取运动式或单点式的方案，转而采用产品化、体系化的方案，并出现了一些评估体系来帮助我们进行数据治理。

在阿里内部，我们根据每个人使用数据的情况给予健康分，当健康分低于标准时，就需要采取问责机制，让使用者推进自己的数据治理工作。而在存储、计算和价值产出方面，也需要建立完整的机制进行数据治理。

3、实战沉淀数据产品

经过多年实践，阿里巴巴提出的One Model数据模型已被行业广泛应用，该标准将整个数据中台分为三层，基础层又被称为ODS层，公共层或中间层则整合业务系统数据，并以主题方式组织，为顶层应用层提供数据服务。在应用层角度，数据会按照不同的业务方和应用场景组织。

经过多年的实践，我们总结出以下需要注意的要点：

首先，数据需要有系统化的组织。在数据建设初期，需要建立顶层框架，明确整个组织需要哪些数据，以及它们在哪些业务领域发挥作用。只有这样，我们才能精确地划分数据体系，进行合规采集、清洗和关联等工作。

其次，我们需要工具来有效地生产数据，高效的生产意味着避免重复生产并确保数据的质量。在这个过程中，技术人员需要积累经验并进行沉淀，技术本身应有沉淀。

第三，我们拥有完善的数据体系后，要向各个业务和应用场景提供便利的数据服务。目前已经形成了独具特色的大数据产品能力。也就是说，今天我们不仅要谈论平台和方法，我们需要将这些东西集成到一个产品中，集中于一个平台上，以承载整个实践过的最佳方法论，我们把它称为“One Data”。

现在One Data方法论已产品化，即智能数据建设与治理Dataphin。

四、Dataphin智能数据建设与治理

Dataphin平台的数据架构分为四个方面，包括数据采集、数据构建、数据管理和数据使用。

首先，Dataphin的数据集成能力，将各个业务系统数据收集到统一数据平台，并提供数据构建能力，包括数据组织规划、定义、开发和标签提取。此过程中，还有很多辅助工具，如任务调度、运维和发布管理。

完成数据构建后，就需要数据管理能力，包括数据标准、质量、安全和资源消耗管理。为了确保数据能够被消费者使用，Dataphin还提供数据资产运营能力，如数据资产目录服务、数据资产上架服务、服务监控以及在线查询服务和API服务。

最后是数据消费能力，Dataphin可以与各个业务系统交互，同时也可以提供给Quick BI等报表展示工具和CDP引擎等广告投放和营销服务。

1、Dataphin 的核心的能力

Dataphin 的核心的能力主要是分成以下几块：

（1）数据引入：全域数据可集成

Dataphin支持像Oracle、SAP等的HandleFTP，包括许多API方式来接入这些数据。同时，在数据导入过程中，我们可以轻松清洗和转换数据，并将其输出到数据中心，同时还能够将处理好的数据提供给外部用户以更好地服务。

（2）数据规范定义：100% 消除二义性

数据规范定义是One Model最核心的规范之一。规范由阿里巴巴首创，很多数据平台也在使用。规范会将数据在宏观层面上分为数据板块、主题域、业务实体、业务活动和业务对象。首先对数据板块进行划分，然后在板块下进行主题域的划分，再对主题域下的业务实体进行分析。

业务实体分为两种类型。完成概念模型后，我们就会得到逻辑模型，在这个模型中，我们会识别每一个实体的属性，并将其形成概念模型。

举个例子，我们业务对象中的“客户”，客户会有姓名、年龄等属性。当我们列出实体的所有属性时，这些内容就构成了我们的逻辑模型，或者是逻辑表。在逻辑表上，我们可以定义原子指标业务限定。

原子指标指的是最小的、无法拆分的统计算子，例如销售金额、支付金额等。业务限定是为了确定范围，例如男性销售金额、大额销售金额等。这两者都是定义在逻辑模型之上的。派生指标是指我们分析指标时所使用的，具有业务意义的指标。所有指标都可以拆分成四个基本部分，第一个是时间周期，例如最近30天的买家在无线端的预付金额就是一个有业务意义的指标。

Dataphin能够判断每个原子指标和业务线的定义是否与现有的定义重复，确保消除二义性。通过将所有内容拆分成最小的粒度，可以帮助用户更好地理解和组织其数据建设体系，以及规范模型的建设。

（3）设计即开发：保障数据模型与代码的一致性

① 分钟级自动化代码生成

当用户定义完成原子指标和业务限定后，需在界面上选择统计周期、统计粒度和原子指标，并确认业务限定。系统会自动为用户生成该指标的计算代码，用户无需干预，只需站在业务角度选择所需指标。系统即可完成所有后台代码生成，实现设计即开发。

② 标签萃取更需要快速简单融入业务经验

除了进行模型和标准建设，我们还面向业务开发标签等服务。目前，以 RTC 为例，主要应用场景是在营销领域。为了为客户提供更完整的营销方案，我们会将 Dataphin 和Quick Audience两个产品进行整合。

Dataphin将行为偏好标签、行为统计标签和静态属性标签整合在一个标签平台中进行管理。同时，我们也与外部CDP平台进行打通，包括我们内部的Quick Audience平台，以便将这些数据推送给CDP平台，从而进行广告投放和其他营销活动。

2、数据资产管理：标准、质量、安全、资源

然后除了这个模型的建设以及标签的建设之外， Dataphin还提供了一个叫做资产的管理，我们资产的管理是叫做 360°全链路的数据洞察和管理。

首先，Dataphin提供的能力之一是数据标准化。我们可以接入国家标准、行业标准以及企业自定义的标准，并提供标准管理、类目维护、码表和词根等通用标准的能力。

第二，根据标准或用户自定义来定义一些质量规则。对于数据表，我们可以设置字段空值校验、唯一值校验、波动性监测和字段比对等多种质量规则。

同时，Dataphin还具备数据安全能力，包括数据分类分级、脱敏和加密，并可提供可信的数据交换和交易。

最后，数据治理功能可以控制计算、存储资源消耗和成本，帮助用户更好地管理和治理数据资产。

3、主题式服务

除了数据采集和管理工具之外，我们还提供面向数据消费者的主题化服务。这项服务不仅支持通过搜索方式进行查询，还提供API及与其他工具的集成支持，让用户可以更加方便地利用我们的数据资源。由于我们并非完全基于物理表，而是拥有自己的数据模型，因此用户不再需要直接查询物理表、了解其表结构以及表与表之间的关联，仅需在逻辑模型上使用数据即可。

如某知名零售品牌企业，通过Dataphin进行系统化建设、规划数据方案，设计包括会员、商品交易和营销相关的零售板块用户主题，集成企业的营销、财务、CRM和ERP数据系统，通过提取，处理接近200TB数据，建立企业统一的用户数据平台，支持采购、供应链、运营和营销优化。

除了零售行业，Dataphin在工业制造、金融、传媒、地产、互联网等各领域都有深度应用。

更多Dataphin能力介绍及企业应用实践可查看白皮书《构建企业级“好数据”，Dataphin智能数据建设与治理》

产品了解：https://www.lydaas.com/dataphin。