DataOps关键技术能力模型实践

云计算 大数据 数字化转型
DataOps作为一种新兴的数据处理与管理 方法,强调数据驱动自动化,既能为数据工作者提供敏捷的数据开发支持,同时也简化了数据交付的周期,提升数 据生产者与数据消费者的协同效率,成为企业数字化转型快速释放数据生产力的最佳方案。

图片

随着数字化转型的普及和深入,大数据技术在各类行业中普遍落地使用,企业生产、营销、运营等各环节中的 数据将普遍被采集,数据应用开发需求增长与数据用户角色的复杂致使企业数据开发、数据运维工作量以及数据应 用交付协调难度大大增加。海量数据的爆发式增长给数据价值挖掘带来了一系列的挑战:数据孤岛阻碍数据的共享 与统一,数据在各部门间协作困难,单点自动化难以支撑整体效能提升。DataOps作为一种新兴的数据处理与管理 方法,强调数据驱动自动化,既能为数据工作者提供敏捷的数据开发支持,同时也简化了数据交付的周期,提升数 据生产者与数据消费者的协同效率,成为企业数字化转型快速释放数据生产力的最佳方案。

1.什么是DataOps 

DataOps 是一种数据管理实践,它通过自动化和协作来提高数据的质量和分析能力。它借鉴了 DevOps 的原则,将文化、自动化、测量和分享的理念应用于数据管理和分析流程,以实现数据的快速交付和高质量管理。DataOps 强调跨部门的协作,通过整合数据生产者和数据消费者,打破数据孤岛,促进团队之间的协作,从而提高数据的可用性和分析的准确性。

图片

DataOps 的关键能力包括数据集成、数据开发、任务运维等全链路数据处理能力,以及数据地图、数据质量、数据安全等数据治理和运营能力。它通过自动化技术简化数据管理功能,如数据传输、流程自动化等,以提高数据的可用性和准确性。DataOps 还鼓励持续测试和监控数据管道,确保它们的正常运行和正确治理。

在实际应用中,DataOps 可以帮助企业实现数据一体化编辑、数据集成、数据管控等功能,提高数据研发效率。例如,金融行业可以通过 DataOps 实现反洗钱、实时盈亏计算、监管报送等核心应用的自动化和实时性,提升业务流程的效率和准确性。

DataOps 的趋势表明,数据可观察性将成为强制性要求,AI 将推动数据可观察性的发展,并且数据基础设施的现代化将受到 AI 的推动。数据工程师的角色将不会因 AI 的发展而消失,反而会变得更加重要,他们需要了解如何将生成性人工智能与数据管道结合,以自动获取价值。

开源项目如 Apache SeaTunnel 和 Apache DolphinScheduler 在 DataOps 领域取得了显著成就,它们提供了实时多源数据集成工具和大数据工作流调度平台,已经在多个行业中得到应用。

2.DataOps 关键技术

数据采集与集成:大数据系统需要解决各类场景下的采集与数据集成问题,如不同数据部署方式(本地部署、云部署、跨云部署 等)、多种数据形式(结构化、半结构化、非结构化)、各类型数据(批量式、增量式/流式数据)。

数据存储:随着结构化数据和非结构化数据数量的不断增长,以及分析数据来源的多样化,之前的存储系统设计已经无 法满足大数据应用的需求,存在很多挑战,如容量问题、延迟问题、安全问题、成本问题、高可用诉求、灵活性诉 求。为了应对大数据对存储系统的挑战,数据存储领域内在不懈努力提升数据存储系统的能力,主要提升有3个方 面:提升系统的存储容量、提升系统的吞吐量、系统的容错性。

图片

批流计算:批计算处理的是“固定的”、有界的数据集。数据的导入与计算通常是严格地分成两个阶段,即先将数据导 入,再对数据进行计算与处理,一般需要关注高吞吐量。流计算处理的是“不固定的”、无界的数据流。在一些场 景下,数据会不停地产生,当数据产生之后要立刻对其进行分析与处理。在这种情况下,数据的导入与计算往往是 同时发生的,数据进入计算系统后就要立刻对其进行响应,一般关注的是低延时。业内的一个热点方向就是批流一 体,包括计算的批流一体和存储的批流一体,这样可以降低系统维护成本、保障数据质量和一致性,进一步混合调 度提高资源使用率。

湖仓一体:湖仓一体是一种将数据湖的灵活性和数仓的易用性、规范性、高性能结合起来的新型融合架构,类似于在湖边 搭建了很多小仓库,有的负责数据分析,有的运转机器学习,有的用来检索音视频等,数据源流都可以从数据湖里轻松获取。这样就打通了数据仓库和数据湖,将数据仓库的高性能及管理能力与数据湖的灵活性融合了起来,底层 支持多种数据类型并存,能实现数据间的相互共享,上层可以通过统一封装的接口进行访问,可同时支持实时查询 和分析,为企业进行数据治理带来了更多的便利性。

多维分析:多维数据中的维是指人们观察事物的角度,同样的数据从不同的维度进行观察可能会得到不同的结果,同时也 使人们更加全面和清楚地认识事物的本质。多维分析可以对多维形式组成的数据进行切片、切块、上卷、下钻、旋 转等分析操作,使分析者、决策者能够从多个角度、多个侧面去观察数据、对比数据,从而深入了解包含在数据中 的信息和内涵。

数据可视化:数据可视化主要旨在借助于图形化手段,清晰有效的传达与沟通信息。但是,这并不意味着数据可视化就一定 因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效的传达思想概 念,美学形式与功能需要齐头并进,通过直观的传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集 的深入洞察。数据可视化技术的基本思想,是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成 数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入 的观察和分析。

数据血缘:数据血缘是指数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一 种关系。其记录了数据产生的链路关系,这些关系与人类的血缘关系比较相似,所以被成为数据血缘关系。数据血 缘分析是元数据管理的重要应用之一,其梳理系统、表、视图、存储过程、ETL、程序代码、字段等之间的关系, 并采用图数据库进行可视化展示。

3.DataOps能力模型

DataOps能力模型围绕数据开发流水线,从业务需求出发,以创造业务价值为目标,形成“4+3”的能力框架,即 4 个核心环节和 3 项实践保障。DataOps能力模型框架的提出,旨在帮助企业建立对DataOps工作的宏观视图,了解DataOps能力建设的核心主线与保障体系,为企业的能力建设提供参考。

图片

为了不断提高数据产品交付效率与质量,实现高质量数字化发展的目标,DataOps的数据流水线以数据工程化能力为核心,构建出数据研发管理、数据交付管理、数据运维和价值运营四个环节。

图片


(1). 数据研发管理

数据研发管理是指以研发治理一体化为目标,构建标准化的数据开发流程。企业在数据开发阶段,构建数据研发治理一体化流程,将数据治理工作前置,把数据治理工作与数据开发工作有机结合,能够加强数据治理与开发工作的协同配合,同时降低数据治理后置所产生的风险。此外,在数据研发阶段加强对数据需求的约束,并利用自助分析能力来提前探查或解决部分数据需求,大幅提升了数据需求的沟通效率,减少了部分研发工作压力。数据研发管理包括需求管理、设计管理、数据开发和自助分析四部分内容。

(2). 数据交付管理

数据交付管理是指以提升交付效率和质量为目标,建设持续测试和交付能力。企业在数据的交付与部署阶段,通过构建自动化的测试和交付流水线,加强数据版本与代码质量的管理,帮助企业提升数据产品交付的自动化水平,加快交付速度,提高交付质量。数据交付管理包括配置管理、测试管理、部署与发布管理三部分内容。

(3). 数据运维

数据运维是指以全面立体的持续监控、发现、处理数据问题为目标,构建全链路可观测能力。企业通过构建全链路数据可观测能力,通过对数据研发运营管理全生命周期的效能、资源、质量、成本等方面进行系统性的监测与度量,帮助企业全面掌握数据研发运营的各环节情况,及时发现问题、反馈问题、处理问题,进而不断优化数据开发全流程。数据运维包括监控管理、资源管理、变更管理、异常管理、持续优化五部分内容。

(4). 价值运营

价值运营是指以精益运营数据为目标,打造量化驱动变革的能力。企业基于量化指标对数据开发工作的成本进行精细化管理,并驱动企业对经营管理、开发流程和系统工具持续优化,形成“以数治数,持续革新”的闭环运营。价值运营包括成本管理、持续变革、量化驱动三部分内容。

4.DataOps开发实践

为了保证DataOps研发流水线能够持续高效运转和迭代完善,企业需要有力的保障措施。这些要求的目标是引导企业以全局最优为目标,保障数据研发流水线的平滑运作。

图片

(1). 系统工具

系统工具是指以企业“业务用数,研发供数”的实际流程为基础,构建一体化的技术平台。系统工具是企业实践DataOps理念的抓手,通过搭建完整且成熟的DataOps工具链,能够为企业的一体化数据研发治理能力提供强有力的技术支撑。DataOps系统工具应具备强大的工具链集成能力,能够整合企业现有的数据治理工具(如数据质量管理工具、数据安全管控工具、元数据管理工具等)和数据开发工具(如ETL工具、数据仓库、数据科学平台等)。通过高度集成这些工具,企业内部可以形成一条完整、流畅的数据流水线,支持通过统一数据门户集中展现和管理,并为不同角色的用户提供便捷访问、使用、共享数据资源的能力,从而实现数据服务的自助化和标准化。

(2). 组织管理

组织管理是指以打造敏捷、协同的数据驱动型组织为目标,优化组织架构、明晰岗位职能。通过重构组织架构、岗位角色及协同机制配合DataOps流水线运行。组织管理包括组织架构、岗位角色、协作协同三部分。

(3). 安全管控

安全管控是指以保证个人隐私、数据安全为目标,将安全管控嵌入到数据流水线中,构建数据研发全生命周期的安全管理能力。

数据的指数级增长以及业务需求的日益发展正不断扩大网络威胁攻击面,并带来新的挑战。数据安全问题由此升级为战略性的业务问题。企业通过健全数据研发全生命周期的安全意识,以敏捷、全面的方式在数据研发的过程中嵌入安全属性,从而帮助企业减少安全事故。安全管控包括安全风险策略、风险管理、安全测试三部分内容。

4.DataOps总结

从业界DataOps Pipeline厂商的实践来看,百花齐放,各有侧重,但都向自动化、可编排、可重复、可持续方向 不断演进。在数据工程能力上不同厂商专注于不同领域构建能力,各有所长,有的专注于编排、测试、CI/CD和监控 等;有的专注于建模和治理;有的专注于数据分析等。DataOps实践和发展需要分阶段逐步成熟的演进过程,一方面依赖于对业务场景匹配构建DataOps Pipeline等能 力的成熟度,一方面也与企业的数据治理水平直接相关。

责任编辑:庞桂玉 来源: 数字化助推器
相关推荐

2021-09-03 11:46:59

数字化

2017-07-20 06:08:04

大数据自服务智能化

2023-09-20 20:11:07

Java

2022-12-20 08:01:20

全栈云负载均衡传统硬件

2018-01-03 00:38:20

大数据Hadoop分布式文件系统

2015-09-11 13:54:51

大数据关键技术

2023-07-10 07:42:38

2011-03-21 15:29:46

2023-01-17 13:30:16

2021-05-17 14:57:22

NFV虚拟化数据

2022-04-15 15:03:42

云计算容器Linux

2016-11-15 21:32:41

云安全PCSA等保

2018-06-14 09:38:53

Linux多核编程

2019-10-30 15:35:08

虚拟化云计算封装

2019-01-09 13:20:51

2016-10-28 13:12:41

2017-07-12 13:49:45

微服务架构数据共享

2023-04-04 10:33:07

自动驾驶

2023-08-29 08:50:34

2018-05-20 15:43:50

点赞
收藏

51CTO技术栈公众号