1.自我介绍
我是 Java 开发工程师,最初的项目是数据治理相关的内容,主要使用的是 ETL 工具 KETTLE 现在这个工具已经改名为 Pentaho,具体的工作内容如下:
- 数据的抽取(从不同的数据库、ftp)获取数据
- 转换(数据合并、统计)
- 生成宽表(用于支撑 BI 部门的数据展示)
这份工作跟数据打交道比较多,当时也是大数据潮流来袭的时候,正好也遇到了疫情,在家办公期间学习了基于 Hadoop 的大数据相关的组件:
从数据仓库到数据中台再到数据飞轮,我了解的数据技术进化史_数据_02
- 大数据基座 Hadoop
- 数据抽取工具 sqoop、flume
- 数据存储和分析 Hive、HBase
- 调度工具 Azkaban(个人也集合 kettle 实现了 ktr 和 kjb 的调用)
随着大数据知识的加深,我开始做大数据相关的系统,当时使用的大数据平台主要是基于分布式数据库 Greenplum 的,并非 Hadoop,但是实现思路是相似的,就是使用多个节点将数据和算力分摊开来,最终再聚合到一起。
从数据仓库到数据中台再到数据飞轮,我了解的数据技术进化史_数据_03
以上是我数据相关的工作经历,这些年的“数据飞轮”概念也给了我不少启发。
2.我了解的数据技术进化史
我也是经历了数据技术的进化,从数据仓库到数据中台再到如今的数据飞轮,每个阶段都代表了数据处理和分析的不同理念和技术发展。
- 数据仓库(Data Warehousing):这个阶段主要集中在整合来自不同源的数据,并将其存储在一个集中式的仓库中。数据仓库主要用于支持商业智能(BI)和决策支持系统(DSS)。数据仓库通常采用星型模式(Star Schema)或雪花模式(Snowflake Schema)来组织数据,以优化查询性能。
- 数据集市(Data Marts):随着数据仓库的发展,数据集市应运而生。数据集市是面向特定业务领域的小型数据仓库,专注于满足特定部门或团队的分析需求。数据集市可以更快地实施,并针对特定用户群体进行优化。
- 数据集成(Data Integration):随着企业拥有越来越多的数据源,数据集成成为一个重要的挑战。数据集成技术如提取、转换、加载(ETL)工具和中间件帮助企业将数据从源系统传输到数据仓库或数据集市。
- 数据质量管理(Data Quality Management):数据质量管理涉及确保数据的一致性、准确性和完整性。这包括数据清洗、数据校验和数据标准化等过程。
- 商业智能(Business Intelligence):BI工具使业务用户能够通过报表、仪表板和数据可视化来分析和理解数据。这些工具通常与数据仓库或数据集市紧密集成。
这五个阶段个人感觉是可以划分到一起的,实际上我的数据治理工作也是这个阶段,只不过数据规模较小。这部分主要是偏数据的,不包含复杂的数据分析。
- 数据中台(Data Middle Office):数据中台是一个相对较新的概念,它位于数据仓库和前台应用之间。数据中台的主要目标是提供一个统一的数据服务层,以支持前台应用的快速开发和创新。数据中台通常包括数据资产管理、数据治理、数据服务API等功能。我在工作中的 ODS + DATA 服务就形成了数据中台。
- 数据湖(Data Lake):数据湖是一种存储架构,它可以存储大量原始数据的原始格式。与数据仓库不同,数据湖不需要预先定义数据模式,这使得它能够灵活地处理结构化和非结构化数据。
这两个阶段可以划分到一起,实际上是数据量的增加,数据类型的丰富,数据中台增加了数据查询和分析的接口,可以不关心数据的来源。
数据飞轮(Data Flywheel):数据飞轮是一种数据驱动的增长策略,它强调数据、洞察和行动之间的闭环。数据飞轮的核心思想是利用数据来产生洞察,然后根据这些洞察采取行动,从而产生更多的数据,形成一个正向循环。
数据飞轮对我来说是比较新的概念,所谓数据飞轮,指的是数据资产与业务之间形成的正向循环,即数据被应用于业务,进而产生新的数据再反馈回系统,进一步丰富和优化数据资产,从而形成一个持续增强的循环。从运行机制来看,它强调的是一种动态的数据应用过程。整体概念并不繁复,但或许可以为企业转型过程中如何优化数据驱动提供新的思路。
虽然终极目的都是为了让数据更好地为业务服务,但数据飞轮与数据中台有鲜明的差异性。数据飞轮更侧重于业务流程或价值关系,而中台更偏向于技术工具层面。某种程度上,数据飞轮可以由中台或其他技术手段实现。
具体来说,数据中台的重点在于数据的集中管理和高效利用,它是一个技术实现。实现手段是提供一个统一的数据服务接口,支持企业的数据需求;数据飞轮的重点则在于数据如何推动业务增长和创新,它是一个业务和战略层面的概念,更多地强调数据与业务之间的动态循环和相互作用。个人工作上感觉数据我们的数据中台也具有一定的数据飞轮属性。
- 大数据和实时分析(Big Data and Real-time Analytics):随着数据量的增长和分析需求的实时性,大数据技术和实时分析变得至关重要。这包括分布式计算框架(如Hadoop和Spark)、流处理引擎(如Kafka和Flink)以及实时BI工具。
- 人工智能和机器学习(AI and Machine Learning):AI和机器学习技术正在改变数据分析的面貌。这些技术可以自动发现数据中的模式和关联,并进行预测和推荐。
最后的这两个阶段也许是当前最为火爆的,数据融合分析和大模型。
3.一点总结
我个人是从数据处理到数据中台到大数据分析都经历过的,数据飞轮对我来说是较新的概念,在如今大模型遍地的当下,数据飞轮的概念还是比较有意义的,数据资产要充分利用到企业的日常决策中,这些决策产生的数据再融入到数据资产里,产生一个良性的循环,让数据的价值不断增加。