2015年,马云拜访名为Supercell的芬兰游戏公司,虽然这家公司仅有180人,但是他们开发新游戏的速度特别快,公司旗下游戏DAU已经突破1亿。2016年,腾讯以86亿美元收购了其84%的股权,这不仅是腾讯历史上,也是近年全球手机游戏行业最大金额的并购。这家“小公司”为什么这么牛逼?因为他们把游戏需要的通用数据、素材都放在一起供大家使用,实现了业务互通,大大提高了每个团队的效率。不久之后,阿里就成立了数据中台的团队,随后国内的公司也都纷纷效仿,开始架构属于自己的数据中台。
什么是数据中台:
基于那次拜访产生的灵感,阿里提出了“大中台,小前台”的概念,即将业务数据化,数据业务化,真正实现数据和业务进行打通。阿里数据技术和产品部门的负责人曾说过:“很多人会把数据比作石油,马云也说过,阿里巴巴要成为全球电子商务的水电煤。我们现在搭建的数据中台,就是希望扮演发电厂的角色。”
数据中台绝对不等于数据平台,差别之一就在于是否具有业务属性,这也是数据中台出现的一个非常重要的原因,它可以支撑多个前台业务,使得数据不再是各前端业务独立管理,真正实现不同业务之间的互通互融。
我就曾经参加过的一个项目给大家讲讲数据中台包含那些东西。
1.数据采集
为数据中台提供汇集数据的能力,应提供统一的数据获取接入方式,数据来源包括内部数据和外部数据,数据类型应支持结构化和非结构化数据采集。传统的ETL工具仍然可以复用,实现数据采集、转换、加载等关键处理过程。
2.数据计算
为数据中台提供统一的大数据计算能力,针对不同大数据处理场景,所需提供的数据计算能力也不同,一般主要包括批量离线计算、内存计算、在线流式计算等,可用到的技术有数据挖掘,大数据分析,云计算等。
3.数据存储
数据中台中全域数据的存储中心,按照不同的数据类型,可以采用图中一种或多种数据存储系统的“混搭”架构。传统数据仓库(如DB2/ORACLE)是最为稳定的数据存储方式,承载着及时性、准确性要求高的企业核心应用。分布式关系数据库,也常简称为MPP数据库,相较于传统的关系型数据库,具有高性能处理能力、高数据吞吐能力的优势。
NoSQL分布式数据库属于非关系型数据库管理系统,在大数据简单存取上具备关系型数据库无法比拟的性能优势。分布式文件系统(HDFS)是当前最常见的大数据存储方式,它具极高的性价比,扩展性强。数据湖作为一种新的存储大量复杂格式数据,避免企业数据孤岛化的数据架构方案,可用来将不同结构的数据统一聚合和存储。
4.数据治理
指的是为了实现对企业中数据资产价值的获取、管控、交付等目的,基于制定的数据规范,对数据资产所做的一系列管理活动。数据标准管理指对数据口径、公共术语、参考数据、数据编码等制定和实施标准化的管理活动。数据模型管理负责对系统中核心的逻辑模型、物理模型、数据库表、字段、视图等进行统一管控、促进其规范化。
5.数据服务
包括了与业务相关的、可复用的一些公共技术组件或产品,如数据目录、数据标签、数据分析、数据开放接口、机器学习算法模型等,它们可以使用SAAS方式直接对外提供服务,也可以以更小粒度如API、消息接口、文件接口、服务接口、SDK软件包等方式只提供组件能力或数据服务,内部或外部第三方应用不必关心底层数据准备情况,直接调用数据服务模块对外提供的服务接口,就可以方便进行二次开发,借以增强自身的能力。
为什么要建立数据中台:
业内对于数据中台建设的经验还是不足的,我这里给大家讲讲如何建立数据中台。
我经在手机上常看见各种公众号文章提及数据中台这个概念,我也跟各个行业的一些大公司的 CIO 交流过,发现很多行业的大公司都开始组建大数据团队,建设数据中台。结合文章和交流获取的信息,我切身感受到宏观经济对技术的影响。2018 年开始经济下行,生意不好做了,粗放的经营已经不行了,随着数据时代的来临,越来越多的企业想通过数据驱动来进行精细化的运营和数据化转型。
对于20人以上的企业来讲,如果不进行精细化运营,那么各种问题可能层出不穷,譬如:小到上演会议室争夺战,大到各种业务团队不互相、办公沟通增加成本、办公室物资损耗现象严重等等,日复一日地恶性循环,最终不但会使管理者和员工感到精疲力尽,还会惊讶地发现:企业业绩没有翻番,管理成本和经营成本等费用反倒是陡然蹿高,企业陷入了持续亏损的泥潭。
这时候,一个连接前后台,并且为业务负责的数据中台的出现就非常有必要了,它能更好的帮助企业进行精细化运营,从而减少甚至杜绝上面提到的任何问题。
如何建立数据中台:
第一步,需要有个完整的地方把所有数据串联起来;第二步,数据需要打通,并被整理好;第三步,数据要能够驱动业务增长。其中,只有第二步和软件架构有关系,其它两步与软件架构的关联都不是那么紧密,第一步是信息化,第三步与管理层更紧密。
首先,数据中台一定要与业务价值对齐。构建数据中台,最重要的不是技术,也不是数据质量好不好,而是数据思维和数据文化。数据思维就是要建立起从数据的视角去思考问题的方式;数据文化就是要把数据和业务当成一体去看,而不是只将数据当作一个支持工具,想清楚业务对于数据的诉求是构建数据中台的第一步。不要在业务场景还没有明确、优先级还不清晰、价值度量体系尚未建立起来的时候,就建立大而全的数据平台,
其次,数据中台应该从小数据、小场景做起。数据中台是面向场景而非面向技术的,这种与客户的业务、企业的结构和信息化发展阶段有着紧密的相关性的业务基础架构,是很难买一个大而全的产品来一劳永逸解决的。
一开始的时候需要顶层设计,面向业务愿景制定中台的整体规划,全面的梳理数据创新全景蓝图,这就是上图左边的黑色框架部分,通过业务愿景驱动出所有的业务场景探索,从而推导出数据中台的全景架构、技术支撑。
但是在实施的时候,要从具体的业务场景出发。从高价值数据集场景做起,然后顺着这个场景竖切,找到数据全景图中的一个或多个数据集合,从小数据场景落地,这样才能快速验证价值。大处思考,全局拉通,避免后续的数据孤岛,但是从小数据集切入,从可实现性高的场景启动。然后一个个的场景做起来,业务价值和中台能力也就同步建立起来了。
企业实际案例:
- 数据中台的建立一定会伴随着企业架构的调整,除非两家企业的业务都是一样的,否则不会存在对一个企业都适用的数据中台。
企业建设数据中台,可以通过合理规划、复用内部现有已经完善的大数据处理工具来支撑建设,充分借鉴业界数据中台建设实践,从核心需求出发,以某垂直业务的数据入手,打通数据采集、存储、计算、治理、服务的工作全流程,逐步扩展到全域数据的接入、加工和管理,建设起自有的数据中台。
笔者和阿里的高层就数据中台有过一次朋友之间的聊天,他给我讲述了阿里的数据中台应该是什么样子的。
阿里的业务中台包含两个数据库,一个数据生产库,一个数据中台(历史库),包含了所有的历史数据和关键算法。以阿里电商为例,用户如果想买一个手机,在下单页面就会推荐手机壳、充电宝等相关产品。但值得注意的是,研发不知道你喜欢上面,在服务的过程中,需要根据你的一系列消费行为或者其他活动的历史记录去分析。
那么问题来了,如果这个数据量非常庞大,现查是非常慢的,不可能瞬间就查到结果,那怎么办呢?这就是数据中台要做的事情,把用户在历史库里的一堆数据做成一序列业务模型,然后在业务中台里要查某一用户喜欢什么时,它能立马调出结果并反馈,这是数据中台最大的魅力,这个反馈可能是毫秒级的。
这才是数据中台真正发挥价值的地方,而不是说做个可视化大屏就觉得有了数据中台或是听说数据有价值就去搞个数据中台,这都是没有真正理解数据中台的表现。从建设的角度来讲,一般是先建设业务中台,然后有了一定量的数据,想清楚了这个数据该怎么用才去建设数据中台,然后再反过来优化业务能力,让业务智能化。
总结:
当企业需要数据化转型、精细化运营,进而产生大规模数据应用需求的时候,就需要建设数据中台。当然,数据中台的建立不是一蹴而就的,每个企业都应该基于实际打造独有的中台能力。