作为一名后端开发工程师,每天都离不开与数据打交道,有幸见证了数据技术从数据仓库到数据中台再到数据飞轮这一系列技术的演化过程。
在当今数据经济时代,数据已经成为了我们必不可少的一部分,成为了关键的生产要素乃至是最有战略意义的资产。
在这几年的职业生涯当中,我亲身经历了,企业对数据的使用方式从早期的Excel表格,到后来企业级的数据库产品,再到云计算时代下的数据仓库,到六七年前开始建设大一统的数据中台,直至当今数智化和AI时代下衍生出来的数据飞轮,这是一场没有终点的进化。
下面展示了整体演化的过程:
从数据仓库到数据中台再到数据飞轮,我了解的数据技术进化史_数据仓库
图中展示了初始数据库到数据仓库到数据中台再到数据飞轮的整个层次演化。
一、数据库时期
在最早期的互联网时代下,数据库主要的作用就是做数据的持久化存储和简单的数据查询,项目前期的业务数据量不大,简单的GB级别的数据,后端数据库只需要做数据查询与展示就足够了,没有什么高并发,批处理的情况下,做数据分析只需要用Excel就可以满足需求。到后来数据量从GB发展到TB,数据库进行大数据查询的压力提高,只能进行改造升级,这就有了后面数据仓库的由来。
二、数据仓库时期
随着业务与数据量的增长,企业的组织架构逐渐庞大,当时企业处理数据还是依靠传统的关系型数据库,传统企业级数据库在处理事务上还是很出色,但是在复杂查询或者数据分析的方面就感觉到了力不从心,因此为了解决这个问题,IBM等公司就提出了数据仓库的概念。
我们可以根据下面这张图看出,数据仓库从底至上由四个层次组成:
从数据仓库到数据中台再到数据飞轮,我了解的数据技术进化史_数据_02
最底层就是最原始的数据层,通常是用来存放企业实时的业务数据,这一层为数据仓库提供了原始数据,是整个数据仓库的直接输入源,没有了这层的支持,数据仓库也就失去了数据支持。第二层是一整个数据仓库的核心,将第一层的数据进行抽取,转换,加载,以确保数据的一致性与准确性,还能将数据进行聚合和汇总,以支持复杂的分析和报告,在这层处理的数据可以支持企业级的分析和决策,例如趋势分析,预测分析等。第三层是数据集市的一个子集,它这里的数据通常是从数据仓库中提取并进一步加工,以满足特定的业务领域的分析需求,有可能包含数据的进一步聚合,汇总或特定格式的转换,通常用于企业特定业务领域的深入分析,可以让特定部门快速访问到数据,而不需要处理整个企业的数据。最顶层是用户与数据仓库的交互页面,它包括报表工具,数据分析工具,数据可视化工具,它不直接处理数据,而是基于数据仓库或者数据集市进行数据的获取,使得用户可以根据自己的需求获取数据,即使是非技术用户也能够进行复杂的数据分析和报告生成。
三、数据中台时期
由于数据量的指数级增长,为了能更好的赋能业务,企业启动中台战略,打通各个业务线的数据,整合汇集数据,在底层通过技术手段解决数据统一存储和统一计算问题。
数据中台的四个核心能力:
下面是数据中台的整体架构图:
首先整体架构图的底层是由企业通过网络进行资源整合,获取到的数据构建起整个数据中台的基底,包含内部数据与外部数据,数据层使用Oracle,MySQL,用于存储内部结构化数据,通过Hadoop进行大量非结构化数据的存储,这就是一整个数据源层。通过使用Kafka进行实时的数据流处理,用Flink处理实时数据。使用spark进行数据的汇聚。通过这些中间件,对数据进行了接入,传输,和初步的处理,确保数据可以正确高效稳定的流入数据中台。再往下就是数据体系层,它涉及到数据的汇聚,存储,处理和转换,是整个数据中后的核心部分,这部分结合了数据仓库进行数据的存储和管理分析数据。数据中台部分,是整个架构的核心,整个提供了数据存储,处理和支持上层应用的数据需求。数据运营体系则负责整体数据的监控,维护优化,确保整体中台系统的稳定运行和数据的质量。数据资产管理是负责数据的分类,标签,元数据管理等,提高数据的可发现性与可管理性,服务体系是为数据服务提供了API接口,数据服务门户等,使得上层应用可以方便的进行调用,最后就是上层应用,直接面向业务用户,为用户提供数据分析和决策支持,包括决策支持,运营大屏,业务中台,创新应用等。整个数据中台架构从数据源的采集,处理,存储到上层应用的过程,是一个持续演化的过程,需要企业不断的进行优化与升级,用来适应不断变化的场景与技术。
从数据仓库到数据中台再到数据飞轮,我了解的数据技术进化史_数据库_03
四、数据飞轮时期
近几年,在数智化时代的到来,我们面临着数据收集整合与治理的严峻挑战,因此出现了数据飞轮这个技术。数据飞轮与数据中台相辅相成,数据中台是数据应用的基础而数据飞轮是数据应用的升级版,在数据中台中引入数据飞轮,可以对数据价值的深度挖掘,更核心的一点在于与业务相融合,驱动业务发展,是动态的。
从数据仓库到数据中台再到数据飞轮,我了解的数据技术进化史_数据仓库_04
从上面这张图就可以清晰的认识到数据飞轮包含的几个关键环节:
• 资产丰富化(Data Abundance):需要意识到自身所拥有数据的潜在价值,并通过各种手段进行收集、存储和管理,形成庞大的数据资产库。
• 质量标准化(Data Standardization):拥有了大量的数据之后,接下来就是对它们进行清洗、整理、合并等工作,以确保数据的准确性和一致性。
• 研发流程化(R&D Streamlining):利用经过处理的数据,开展深入的数据分析和挖掘,发现隐藏在其中的规律和模式。提高研发效率和产品质量。
• 数据应用化(Data Application):将分析得出的结果转化为具体的业务决策和行动指南,更好地理解市场需求、优化供应链管理、改进客户服务等各个方面。
• 行动敏捷化(Agile Action):凭借对数据的深刻洞察,够迅速响应市场变化和竞争挑战,调整战略方向,抢占先机。
• 价值最大化(Value Maximization):通过持续的迭代和优化,不断提升数据的价值贡献度,实现从数据到知识的转化。
• 决策智能化(Intelligent Decision-Making):随着技术的进步和经验的积累,可以将更多的决策权交给机器学习算法,让AI代替人工完成一些重复性高、逻辑性强的工作,从而进一步提高决策的科学性和准确性。
五、数据技术的未来展望
从数据库到数据仓库到数据中台再到数据飞轮,数据技术发展反应了企业对数据应用形式的持续变化。随着数智化的时代到来,云计算,大数据,AI技术的相融合,数据技术的发展,为企业推动数智化转型奠定了夯实的基础。
我相信,未来随着数据技术的不断发展,数据飞轮的未来将是一个动态的、高度集成和智能化的系统,它将成为企业持续创新和保持竞争力的关键驱动力。随着技术的不断进步,数据飞轮将不断演化,以适应日益复杂的数据环境和业务需求。