引言
近年来,数据驱动已经成为企业通过云和智能技术实现智能化增长的关键。企业希望通过数据分析来指导业务决策、优化运营流程,并挖掘新的商业机会。然而,数据飞轮是目前数据驱动最热门的实践模型,它是让已有的数据驱动起来的核心,能够有效提升数据利用效率,加速企业数字化转型。
数据飞轮模型
数据飞轮由业务应用和数据资产组成。业务应用通过工具和BP机制利用来自下层的数据解决决策问题,期间产生的数据又沉淀在下层。这形成了一个正向循环,随着数据不断被利用和反馈,业务应用将愈发智能。然而,目前企业普遍都具备上述的机制,但数据却仅仅停留在收集的阶段,没有实现数据与业务的强耦合。
DataLeap赋能数据飞轮:激活数据驱动,推动企业智能化增长_大数据
主要原因在于企业中数据消费方角色众多,各方需求和技术背景千差万别。传统的数据中台通常难以满足所有的需求,导致能够直接消费数据的角色寥寥无几,数据飞轮因此陷入停滞状态。要让数据飞轮转起来,关键是让数据在体系中最大限度地被使用,促进数据在生产、开发和运营环节的流动。
全链路拥抱AI
全链路拥抱AI是推动数据消费更普惠的必然趋势。AI技术能够在数据的获取、加工、分析和应用过程中提供强大的支持,从而让数据消费不再是专业数据分析师的特权。火山引擎的DataLeap开发助手正是在这样的背景下应运而生。它在数据的获取和开发阶段提供了解决方案,有效降低了数据利用的门槛。
DataLeap开发助手是火山引擎推出的一站式大数据中台解决方案。它不仅集成了实时和离线数据集成、数据开发、智能运维、数据治理、资产管理等多种能力,还引入了AI辅助模块,旨在满足不同层次用户的数据消费需求。企业可以借助DataLeap实现多业务场景下的数据共享、数据治理和资产管理。
DataLeap开发助手:数据集成与治理
在开发离线数仓的过程中,开发人员往往需要根据业务变化不断切换、解析、调试。由于数据量大且类型不同,人工方式进行核验耗费巨大的人力。如何使同构代码能够适应不同生产环境正确运行,并避免调试过程中的误操作,是数仓研发中的一个关键挑战。DataLeap开发助手提供了一种低成本的解决方案,通过自定义项目参数分别设置开发、生产环境参数值(包括Region、DB、schema、table、date以及自定义等),实现了快速的资源隔离。
具体来说,DataLeap允许使用项目参数区分不同环境。在调试时,系统会自动切换到测试环境的参数值,而在上线时,系统将自动切换为生产环境的参数值。这样就避免了在开发测试阶段因误操作而影响生产库表的数据。这种自动化的环境切换不仅提升了数据开发效率,还降低了误操作的风险。
例如,在业务中,不同Region下的库由于表名不同,开发过程有很大的区别。为了实现不同Region项目下代码的保持同构,研发人员可以在代码中使用项目参数,实现不同环境下同一任务的代码同构,有效提升环境代码管理效率。同时,DataLeap可以自动保持代码一致,无需在上线前手动将开发环境的库表名称替换为生产环境的库表名称。
DataLeap实战:自动化数据生产/开发隔离
下面我们以湖仓一体分析服务(LAS)引擎为例,通过“项目参数管理”就实现区分不同环境库和时间格式的查询。具体方法如下:
首先创建模拟场景。在LAS中创建2套环境,分别是测试环境库test_dev、生产环境库test_prod,在这2套环境中分别创建相同表名的表LAS_table01和名为datetimes的分区字段。在开发环境分区中字段格式为yyyymmdd,在生产环境分区中格式为YYYY-MM-DD。
接下来在DataLeap中设置一个日期参数arg,并使开发环境的参数值为{DATE}。最后设置库参数env,其中开发环境的值为test_dev、生产环境的值为test_prod。
此时研发人员就可以直接在代码中使用项目参数,只要点击“解析-调试“系统就会自动切换开发环境的参数值,同时自动进行语法解析、权限检查等操作。
DataLeap赋能数据飞轮:激活数据驱动,推动企业智能化增长_数据_02
调试完成项目上线时,只需点击“提交上线-任务例行执行“,系统就会自动切换生产环境参数,同时自动进行相应的语法解析以及权限检查,大幅提升环境代码管理效率。
DataLeap赋能数据飞轮:激活数据驱动,推动企业智能化增长_数据_03
到这里就实现了自动化环境隔离,可以说是非常简单便捷。如果使用传统的解决方式,由于一个业务需求通常涉及10多个任务和30多个参数,而且不同环境DB中表基本一致,就需要管理两套不同的代码。同时,也难以避免测试代码在生产环境执行、表误删、数据误删等问题。相比之下,DataLeap开发助手让研发人员不再需要手动通过“任务输入参数”的方式添加项目参数,只需定义一次参数即可轻松构建,并且实现生产、测试环境下的数据自动隔离和代码同构。
不仅如此,DataLeap还在数据开发方面提供了便利,具备数据集成、开发、运维、治理、资产、安全等数据中台建设能力。例如,在数据治理方面,DataLeap支持全链路数据资产管理,帮助企业梳理和规范数据资源,实现数据的高效利用和安全管控。在数据集成方面,DataLeap提供了多种数据源的实时和离线数据集成能力,支持跨平台、跨环境的数据集成需求。
通过DataLeap,企业可以实现数据的全生命周期管理,从数据采集、存储、开发、分析到应用,为企业的数据驱动战略提供有力支撑。同时,DataLeap内置的AI辅助模块可以帮助用户更好地挖掘数据价值,快速构建数据分析模型,辅助决策。
总结
火山引擎的DataLeap开发助手为企业提供了一站式的大数据中台解决方案,极大地简化了数据开发和管理流程。通过自动化环境隔离、代码同构、数据资产管理等能力,DataLeap助力企业提升数据研发效率,降低管理成本,为数字飞轮提供了坚实的支撑。在数字化转型的道路上,DataLeap的出现让数据驱动不再是少数企业的专利,而是普惠的技术,使每一个企业都能借助数据的力量,迎接智能化增长的未来。