一、背景和挑战
1. 数据要素发展背景下的数据平台工具现状
近年来,我国对“数据”的战略地位日益提升,从将其定位为“国家基础性战略资源”、“关键生产要素”,到国家数据局成立后发布的“数据要素三年行动计划”,都显示了对数据重视程度的不断增强。这不仅更准确地体现了数据的业务和经济价值,也提高了对市场主体在数据管理方面的要求。目标是在庞大的市场规模、海量数据资源和多样化应用场景中,充分发挥数据的乘数效应,推动经济社会发展。在不断地探索和实践中,数据的标准定义也日益明确。
广义上,数据是任何形式记录的信息,包括电子或其他方式。它经过采集、治理、整合等治理分析过程,转化为“数据资源”。那些能够带来经济利益或其成本能够可靠计量的数据资源,被定义为“数据资产”,未来可进行会计入表或交易。目前,市场正处于数据资源管理的阶段,必须夯实基础,为数据资产的入表和交易等后续工作打下坚实基础。
2. 联通数科一体化数据平台所获认可与荣誉
联通数科一体化数据资产管理平台获得了非常多的认可与荣誉,包括工信部、环保部、DAMA 等颁发的奖项。2023 年数字资产管理大会的《数据治理产业图 2.0》中,我们有 12 项能力入选图谱。在 2023 年的信通院组织的元数据管理平台专项评测里,我们的一体化数据资产管理平台下的元数据管理模块也是首家首批通过专项评测的平台工具。
3. 元数据管理的挑战与解法
针对于元数据管理,我们面临以下挑战:
(1)操作层面
元数据实施或者运维的过程中,实施人员面临“找不到、读不懂、操作难”的问题。“找不到、读不懂”是元数据本身要解决的最核心问题,“操作难”是因为传统的元数据管理工具过多地依赖于人工操作。为了减少人力成本投入、提高元数据的准确性,需要将这部分能力进行自动化,减少分人工操作的复杂性。
(2)管理层面
从整个数据治理管理过程角度,元数据面临着“对接难,存储难,见效难”的问题。“对接难”指如何对多源资源进行统一接入及管理;“存储难”指的是大量数据占据大量的存储计算资源,资源的耗费如何通过元数据管理进行生命周期的控制,降低资源的浪费;“见效难”指的是元数据如何去产生价值,能够体现出效用。
针对上述问题,我们采取了自动化、链接+、智能化三个解法。
(1)自动化
减少人工的操作,目前元数据管理平台部署之后,只需要很少的人工操作,就能够将整个平台跑起来,并且后续也不需要进行定期的维护,只需要在发生问题的时候进行核验和排查。
(2)链接+
基于一体化平台内的多个模块,与元数据平台进行连接,共同对平台数据管理过程进行赋能。同时支持对接其它外部管理模块与平台进行链接,提供标准的对接方式。
(3)智能化
基于大模型、数据虚拟化等技术进行探索,将平台变得更智能、更好用。
二、探索与实践
接下来介绍我们基于上述三个解法开展的具体的探索与实践。
1. 联通数科数据资源管理现状
一体化平台基于联通数科内部的需求进行研发,主要在公司内部进行使用。内部500 + 数据库、2.3 万 + 张表、200 万 + 字段、2000 + 数据节点,都是通过一体化平台进行管理的,日均数据量达到 500 TB 级别。
此外我们对于平台进行了一系列产品化的工作,并拓展了一些外部项目。平台内的数据服务了 1000 + 家政企客户,并且基于一体化平台,交付了 50 多个外部项目,其中包括 20 + 省部级以上的项目,所以我们对于元数据管理具备较强的实施及使用经验。
2. 一体化元数据管理整体流程
在元数据管理流程中,我们主要关注三类元数据:业务元数据、技术元数据和管理元数据。流程的起点是建立数据标准,以此为基础构建逻辑模型,这些活动都属于业务元数据的构建阶段。在构建逻辑模型的同时,我们补充和整理业务元数据,为后续的采集和展示做准备。
随着逻辑模型的物化,我们进入技术元数据的处理阶段,创建物理模型。数据通过采集、加工计算等步骤进入数据仓库,这是在线事务处理(OLTP)的过程。在这个过程中,物理模型、数据采集任务、数据加工任务等信息作为技术元数据被纳入元数据管理平台。
在数据仓库建设过程中,我们对每个节点进行数据质量稽核,并将稽核结果作为技术元数据存储。此外,在线分析处理(OLAP)过程中的数据指标构建、标签构建、BI 看板构建等信息也属于技术元数据的采集范围。数据仓库中数据还可被转换为 API,这些 API 同样作为技术元数据进行统一管理。
元数据管理平台最终对数据表、数据指标、数据标签、BI 看板、API、数据目录等六大类资源进行统一元数据采集,覆盖从数据采集到应用的全流程过程。
为了进一步完善元数据管理,我们还与一体化平台中的其他模块对接,管理元数据中的相关内容。例如,我们对接数据表的生命周期管理模块,将生命周期信息作为管理元数据进行管理。同时,我们还对接数据表操作日志记录和数据安全分类分级的产品模块。
通过这些步骤,我们构建了一个全面的元数据管理流程,确保数据的准确性、完整性和可用性。
3. 元数据自动化管理
元数据自动化管理的核心目的是减少人工的干预,提升管理效率,并提升元数据的准确性,管理覆盖元数据的采集、管理、质量、统计分析的全过程。
(1)采集
元数据采集任务只需配置相应的数据表、数据库等元数据信息,设置采集时间周期、过滤字段后,系统可以按照设置的周期自动执行采集任务。支持在采集实例模块查看每次采集的状态(成功或失败),同时对于采集失败的任务,可以使用日志分析模块协助排查问题。
系统支持采集任务的自动启停,可以一键式地对采集任务进行开关,方便在不需要采集的时候,随时停止采集任务。
(2)管理
采集好的元数据会自动发布,形成元数据目录。如果元数据发生变化,则可以通过自动定版的方式自动生成版本号,也可以采用手动定版的方式对版本号进行变更。此外,系统基于每个用户的权限、机构等信息,对元数据的维护权限进行自动控制。
(3)质量
对元数据的质量校验包括三种校验方式:一致性稽核、完整性稽核和标准覆盖稽核。一致性稽核指校验不同元数据在不同分层或环境中的变化,并形成分析报告;完整性稽核指分析元数据采集上来之后是否完整;标准覆盖稽核指元数据每个字段是否关联了数据标准。
(4)统计分析
在质量统计模块展示质量统计报告及数据分析,用以监控元数据的质量问题,方便对元数据进行改善和调优。同时,基于六大类数据资源形成分层分域、安全等级等统计,帮助用户随时明晰平台内数据资源的整体概况。
4. 元数据平台链接+
传统的元数据管理只是对表进行管理,而联通数科内部还会有其它一些内容链接到元数据管理平台。链接内容及方式主要包括:
(1)数据资源类
包括表、分析、API、目录等四类数据资源。表类资源包括数据模型、集群存储、逻辑入湖;分析资源包括数据指标、数据标签、BI 看板;API 包括表转服务 API,以及第三方注册的API;目录包括对外共享、对外开放的数据目录,也包括数据交易、数据流通场景中的数据目录等。
(2)任务调度类
主要包括通过平台执行的数据采集、数据加工、数据分析等任务。对任务的 SQL 进行解析,提取链路信息,获取任务执行成功或者失败的情况、执行时间、消耗资源等信息,并接入元数据平台。
(3)外部系统类
除了一体化平台内部的信息外,我们在项目上也探索将外部的系统集成到平台,比如通过数据推送(接口或 Kafka)把对方的数据推过来,或者采取数据拉取(JDBC 或对接)的方式,把系统里面的数据统一纳入到元数据管理平台。
链接的内容接到平台里后,首先由元模型管理模块定义各类数据资源应该采集的数据,数据采集后落到元模型里面,并产出元数据目录。元数据目录与一体化平台内部的分类分级等模块联动补齐管理数据,形成全链血缘分析,最终应用在资产梳理、流向分析、比对验证等场景。
5. 全链血缘管理
基于“链接+”的能力,实现了全链血缘的管理。数据从采集到最终应用经历多个步骤,主节点的上下级血缘链接可能超过 10 层甚至 20 层,如何精确定位数据上下游血缘,对于元数据管理非常重要。通过全链血缘可以方便清晰地定位问题,避免低效的人工手动排查,数据治理和开发过程中的每一步都可以清晰呈现。
全链血缘主要包括以下几个应用场景。
- 应用问题定位:这是交付项目中的常见场景,即对于数据应用中产生的问题,进行字段级别的回溯定位。过去表级的回溯只能大概推测问题发生在哪儿,而现在引入字段级回溯,可以精准定位到具体某一个字段发生的问题。
- 影响分析:数据变更时进行下游影响查询,分析下游都有哪些链路,进行统一查询,提前对下游链路中可能会产生的影响进行提前的邮件或短信告知。另一方面,如果元数据平台检测到上游表不一致,则可以对下游的影响表进行自动预警。
- 使用度分析:使用度是基于主节点的下游层级进行判断,层级越多则使用度越高;而复杂度则是找到表的上游的层级,层级越多则复杂度越高。通过使用度、复杂度的排名分析,找到数据治理全链关键节点。比如使用度或复杂度排名前 10% 的表可能是关键节点,需要更多的关注。
- 孤岛定位:应用数据表加工关系对其进行疑似数据孤岛判定,如为孤岛数据或长时间不使用的数据,则进行删除或冷热存储介质转换,释放资源来给其它更为重要的数据资源。
6. 数据认责及生命周期管理
(1)数据认责
传统的数据治理的过程,真正出现问题的时候,在大组织里边很难定位到具体应该由哪个人对问题负责。我们基于元数据平台向上下游进行拓展,把所有数据资产信息推送到认责系统,认责系统对数仓、数据表、数据质量等信息定义责任人,包括总负责人数据 owner、技术负责人和业务负责人,未来如再出现问题,就可以定位到 owner,由 owner 协调相应的技术负责人和业务负责人对数据问题进行处理,数据资源的调整、变更、更新的权限由任责人进行推进负责。
(2)数据生命周期
主要是对数据进行了冷热温分层,基于元数据系统结合相应的逻辑规则,对数据不同分区进行定位。如长时间不使用则存入温数据区,如果再长时间不使用则转到冷据区。冷数据区对数据模型有时限控制,超出时限则进行删除,及时释放数据资源。
三、总结和展望
1. 元数据智能化探索
(1)元数据智能分类
基于业务元数据、管理元数据、样例数据等信息及数据血缘信息智能判断元数据分层、分域信息,对元数据进行智能分类打标。
(2)元数据智能补齐
通常元数据采集会因为各种原因导致元数据不完整,如果采用人工的方式进行补齐,则消耗资源比较多,并且人工填写的准确性存疑。而通过基于 AIGC 技术的元数据智能补齐能力,将元数据补齐工作嵌入元数据采集流程,实现采集过程中的自动元数据补齐,业务人员仅需采集流程结束后进行基本的核对,即可快速、完整地获取元数据信息。
(3)元数据智能推荐
基于使用者用户信息及平台中的操作行为,在用户进行元数据搜索时,智能推荐用户感兴趣、可能需要查询的元数据信息;在数据认责过程中,基于分层分域等信息,智能推荐数据 owner、技术负责人、业务负责人。
2. 元数据管理助力数据资产入表探索
数据资产入表、数据资产估值和数据管理看似是两个方向,数据管理更偏向技术,数据资产入表更偏向于财务,但实际上二者也有相辅相成的部分,比如数据估值包括成本法、收益法、市场法,在成本法、收益法中,平台可以对数据资产入表提供帮助。目前数据资产入表多采用咨询的方式,缺少工具能力助力细化成本,而元数据平台可以对此场景提供帮助。
(1)全量数据资产盘点
因为元数据管理平台本身会采集全量的资产进行管理,所以可以为企业梳理所有资产提供帮助。
(2)对成本进行可计量的探索
包括存储成本、计算成本、人工成本。计算成本通过数据计算加工任务所消耗的 CPU 或者内存进行核算;人工成本则通过数据计算加工过程中,数据治理人员在平台进行开发的时间等信息进行核算。
(3)对数据质量进行评估
基于不同数据质量的情况,作为估值依据。
(4)数据应用
包括 API 的调用情况、数据目录共享的情况,量化数据产生价值,助力数据资产评估。
以上就是本次分享的内容,谢谢大家。
四、Q&A
Q1:To B 业务如何打通数据孤岛?由于监管要求,很多数据是不能明文互通,一体化的元数据如何实现数据的隐私的计算和互联互通?
A1:建议采用可信数据资源空间的模式,解决的不能明文互通的监管要求的,主要是通过多方的隐私计算或数据沙箱方式进行数据的开发及利用。
Q2:对于有自己平台的客户,如何管理元数据?
A2:在项目拓展过程中,不可能是要求所有的客户摒弃以往的平台,我们需要考虑如何把对方的平台引入进来,尽量把拓展的能力做标准化,比如定义好标准化接口,做一些元模型的定义,在尽可能减少开发资源的情况下,把这部分元数据进行统一管理。但是这个过程中需要去看对方的配合意愿以及程度。
Q3:元数据的全链血缘囊括的范围是多大?出仓后的数据血缘如何推动全链路的血缘管理?
A3:从数据治理整个流程的角度,只要数据进入到一体化平台内,即意味着已经进入全链路血缘监控的范围了。全链路血缘包括多类资产管理,如表类资产、数据指标、数据标签等,所有的资产都应纳入管理。数据出仓后,对其来源需要纳入权限管理,包括最终的应用方。这需要元数据管理平台提前做好标准化,方便和上下游的厂商或组织机构进行打通,将对方的数据或者信息推送给我们进行统一管理。