1 导读
本次分享偏向于面向数仓建设、业务交付等过程中遇到的效率、质量、成本、研发等相关问题的系统性评估和治理,着重于设计思路和实践成果的展示,不涉及太多的技术细节。读者朋友可以根据自身业务场景和实际面临的问题,选择性参考并应用到实际工作中。
2 背景介绍
2.1 为什么搭建数仓评估体系
数仓评估体系起源于23年底,作为转转数据治理的评价层,是非常重要的一环。过去很长一段时间里,转转数仓团队服务于快速发展和变化的业务,为了能够高效响应业务的数据需求,一方面存在烟囱式建设的情况,指标管理也较为粗放;另一方面对于线上的表和任务往往是只做加法不做减法,带来额外的计算和存储成本。 基于上述现状,衍生出如下问题:
管理者视角:
- 看不清数仓整体建设情况
- 看不清成本增长和分布
- 内外部用数效率和数据质量提升难
- 看不清研发规范落地效果
数仓RD视角:
- 名下哪些资产有问题,有什么问题
- 模型完备度如何,哪些业务过程建设较薄弱
- 模型复用率如何,哪些模型没人用
- 哪些规范没有执行好
外部用户视角:
- 找数、用数难,用户效率低
- 准确性、及时性、一致性等问题频出
- 报表、邮件、播报权限难管控
为了能够系统性解决上述问题,我们在24年将数据治理规划成年度重点项目。我们通过制定标准、夯实基建、搭建指标库和数仓地图等手段来进行事前预防和事中监控以及辅助提效,数仓评估体系作为事后的评价和复盘工具,则是贯穿整体治理过程。
图片
以上是数据治理的整体规划及数仓评估体系所处的位置,我们对数仓评估体系的定位是:基于客观事实进行数仓现状及问题的量化分析及横纵向对比,实现基于结果指标和治理项驱动的数据治理及效果回收。
2.2 需要解决的技术问题
✓数仓评估指标的设计与落地✓“客观事实”数据的获取与处理✓存量的问题怎么治理✓增量的问题怎么管控✓如何不断完善和健壮评估体系
3 设计思路
整个评估体系分为结果评估和过程评估两大模块。我们通过结果评估中关于效率、质量、成本、模型相关的结果指标,观测数仓治理目标达成情况;通过过程评估的治理项驱动数仓RD进行具体问题的治理。
3.1 整体架构设计
整个数仓评估体系大致上可以分为三层:
图片
- 指标层: 以数据处理层产出的数据模型为基础、结果指标和过程指标体系为目标进行指标加工,产出相应的指标结果表,支持趋势分析和横向的对比分析
- 数据处理层: 对数据源层获取到的数据为基础,进行数据清洗和建模
- 数据源层: 整合数据源,包括Hive元数据、平台查询日志、告警日志、账单数据、治理项规则、组织架构等
3.2 产品形态设计
整个评估体系规划为结果评估、过程评估两大模块,分别对应结果指标和治理项两套指标体系。结果评估用于观测当前现状及趋势,看的是整体表现;过程评估驱动日常的数据治理,直击各RD的问题资产及具体的问题明细。
图片
结果评估
用于呈现当前在效率、质量、成本、模型相关的指标现状,并进行横纵向的量化分析,支持组织、组件、人等粒度的下钻分析。数据主要来自于分析师和产品运营等数据使用方的数据查询日志进行统计分析、对数据质量监控服务日志的统计分析、以及人工打标线上问题或事故的统计分析。
图片
过程评估
通过对日常问题、规范的抽象总结,形成各类治理项。目前包含效率、质量、研发、成本四大类治理项,汇集成治理工作台。通过治理项驱动数仓RD进行数据治理。
图片
3.2 指标体系搭建
数仓评估体系的指标体系大致上可以两层。第一层是过程评估关注的每个具体问题对应的治理项;第二层是结果评估关注的结果指标。
治理项,来自于对日常规范的抽象,是每一个具体的问题的检查项,是数据治理的最细粒度。我们一期围绕效率、质量、研发、成本四方面一共设置了24个治理项。
图片
结果指标,是各类问题的聚合结果,是某一类问题或者单个核心问题的当前现状表现。我们对管理者视角、RD视角、用户视角所存在的问题进行了抽象和归类成具体的治理项,设置如下指标体系:
- 效率上: 我们会关注效率分,这是一个基于平均运行时长、ODS穿透率、复杂SQL占比加权统计出来的复合指标,用来观测评估业务侧通过即席查询使用数据时的效率情况。
- 质量上: 我们关注线上问题次数
- 成本上: 我们关注成本整体的增长率、分组件的成本分布和增长情况,并且关注具体到业务和个人的成本分布。
- 模型上: 我们关注整体的完备度、复用率、稳定性、规范性等。
4 结果呈现
4.1 结果评估模块展示
效率评估
实现效率分的横向和纵向对比,支持分业务下钻至具体的个人以及具体的某次查询。通过内部模型完备、宣导加提效工具的赋能,辅助业务侧的运营、产品、分析师等同事,提升日常查询数据的效率。
图片
质量评估
实现线上质量问题的趋势分析。这块目前以手动填报为主,后续会引入质量监控、任务告警等数据,作为质量问题的评估依据。当前还是侧重于业务感知问题记录和复盘。
图片
成本评估
成本这块,我们重点关注月度增长趋势是否在可控的范围内,后续会通过任务及存储的系统性治理,驱动成本的下降,今年的重心还是在内部模型相关治理上。
图片
成本拆解至组件、组织和个人:
图片
模型评估
这块是今年投入时间最多的部分。我们通过完备度、复用率、稳定性、规范性指标,观测治理的成果。通过目标驱动RD使用治理工作台进行各类问题下具体治理项的治理。
图片
4.2 过程评估模块展示
本模块呈现各RD当前存在问题的资产明细,通过点击资产名称,可跳转查看具体问题项。也可通过控件筛选查询当前关注的治理项。
图片
资产问题治理项明细:
图片
通过治理报告可观测当前目标的达成情况,及本周或本月的治理进展。并且通过新增资产监控实现增量问题的管控。
图片
4.3 阶段性治理收益
过去一年,我们通过数仓评估体系驱动的数据治理,重点还是在于数仓内部的治理。偏向于完备度、复用率、稳定性和规范性。磨刀不误砍柴工,勤修炼内功,为后续的效率和质量治理奠定基础。
治理收益如下:
图片
- 驱动完备度从年初的50.2%提升至93.97%,净提升43.77%
- 驱动复用率从年初的51.65%提升至88.61%,净提升36.96%
- 驱动稳定性从年初的76.27%提升至94.45%,净提升18.18%
- 驱动规范性从年初的76.56%提升至94.61%,净提升18.05%
给数仓带来的核心变化是:
完备度治理驱动24年新上线模型达到上一年2.6倍,增长161%,对应的符合复用标准的模型数不降反升,说明模型更贴合当前的业务场景及业务过程且复用程度更高,另外治理过程整合下线无用模型,一定程度上减少了存储空间占用。 最终完备度达到95%,则说明内部承接的需求,95%都可以通过模型层满足,过往只能满足50%左右。 在规范性上,之前一直存在的跨层穿透问题、回流引用问题、引用外部门表问题、注释缺失问题、缺依赖问题等存量问题基本治理完毕并得到了控制,后续持续观测即可。
5 未来规划
- 通过定期复盘,持续迭代和完善治理项,使评估更准确、更全面
- 慢慢由内部的治理,转向外部效率&质量治理提升
- 挖掘成本存在浪费的业务或个人,通过治理驱动降本增效
- 逐步推广至仓外评估和治理
关于作者
邱狄凡,转转大数据开发工程师,C2&新媒体数仓负责人,数据治理数仓主R。