国产开源湖仓LakeSoul--数据智能的未来方向-51CTO.COM

一、LakeSoul 设计理念和技术原理解读

首先和大家分享 LakeSoul 的设计理念。

1、LakeSoul 设计理念解析——背景

图：LakeSoul 设计理念解析——背景

Modern Data Stack，简称 MDS，中文翻译为现代数据栈，其特点之一就是数据上云，以云数据仓库为核心。同时数仓采用计算和存储分离的模式，计算资源可以弹性伸缩，满足负载波峰波谷的变化，降低成本；存储资源可以线性扩大，高可用，无容量限制。

湖仓：在数据湖基础设施上构建数仓融合湖、仓各自的优势，湖仓一体能发挥出数据湖的灵活性与生态丰富性，以及数据仓库的成熟性与企业级能力，帮助企业建立数据资产、实现数据业务化、进而推进全线业务智能化，实现数据驱动下的企业数据智能创新，全面支撑企业未来大规模业务智能落地。
ELT：由 ETL 向 ELT 转变，实时自动化数据集成，增量式数据建模计算和查询。
流批一体：流批统一计算链路、统一存储，统一数据链路，支持并发写、Upsert、ACID、快照读等功能。
多元应用：BI/AI 一体化，多种计算模式、多种计算引擎直接读取数据，统一数据架构和口径。

2、LakeSoul设计理念解析——设计目标

图：LakeSoul 设计理念解析——设计目标

LakeSoul 的设计目标包括四部分，湖仓一体、流批一体、端到端实时以及 BI/AI 一体。

湖仓一体：针对计算存储分离优化设计，在湖上低成本构建大规模数仓。
流批一体：管理大规模的数据湖文件，支持高并发大批量的写入、Upsert 更新，快照读、回滚等机制。
端到端实时：提供多源自动实时数据入湖(CDC、Kafka)，实时增量计算 Pipeline等功能，打造端到端简单易用的实时数仓。
BI/AI 一体：支持大数据、AI 模型训练多种计算框架，使用湖仓统一数据口径。

3、LakeSoul 设计理念解析——时间线

图：LakeSoul 设计理念解析——时间线

LakeSoul 时间线起源于大型推荐和广告业务实时数据流场景，分五个阶段：

2021.12前：LakeSoul 国产自研流批一体湖仓框架开源。
2021.12至2022.07：重构元数据，提升并发更新和事务能力。
2022.07至2022.10：发布 Flink CDC 多表自动入湖，支持整库同步，自动 DDL变更。
2022.10至2023.05：发布 Native IO，扩大性能领先优势。LakeSoul 项目捐赠给 Linux 基金会孵化。
2023.05至2023.6：发布全链路流式增量计算，自动合并等领先功能通过国产信创认证。

4、LakeSoul 技术解析——整体架构

图：LakeSoul 技术解析——整体架构

LakeSoul 的整体架构如上图所示。包括三层，底层 LakeSoul Storage Layer 表示数据存储层，中间 LakeSoul Query Engine 表示数据查询引擎，最上层 LakeSoul Distributed Meta Service 表示分布式元数据服务，左面是数据源，右面是加载数据和数据服务。

LakeSoul Storage Layer：数据存储层，支持的存储包括 Amazon S3、HDFS、MINIO、阿里云OSS 等，通过 Cloud Storage Driver、Hot Data cache 加载数据到数据存储层。
LakeSoul Query Engine：支持多种计算引擎包括 Spark、Flink、Hive 等，读取存储层数据进行加工、分析、建模等。
LakeSoul Distributed Meta Service：分布式元数据服务，包括元数据管理-Schema Manage、数据事务管理-ACID Control、数据分布/状态-Data Distrbution/Stats 等功能。
数据源：包括流数据-Streaming Data 和批数据-Batch Data。
数据服务：数据服务包括BI和AI两块，支持AI使用结构化和非结构化数据。

5、LakeSoul 技术解析——数据格式

图：LakeSoul 技术解析——数据格式

下面看一下 LakeSoul 的数据格式。

表物理数据组织：使用 Parquet 格式存储；按主键哈希分片，单个文件内按主键排序；支持多级 Range 分区。
表元数据组织：支持表、分区、文件多级管理。每次提交会产生一个新的版本 Version，每次提交版本号会递增。

6、LakeSoul 技术解析——元数据（元数据管理）

图：LakeSoul 技术解析——元数据（元数据管理）

元数据，主要包括分区信息表 Partition_info、数据提交信息表 Data_commit_info、表信息表 Table_info、表名 ID 信息表 Table_name_id 和表路径 ID 信息表 Table_path_id 等。

中心化的元数据管理包括以下内容：

使用 PostgreSQL 作为存储：PostgreSQL 是开源的对象-关系数据库数据库管理系统，支持丰富的数据类型（如 JSON 和 JSONB 类型、数组类型）和自定义类型。
使用 PG 事务实现并发控制、ACID 等能力
使用 PG 两阶段提交协议用于数据并发读写时冲突检测
使用 PG Trigger 机制实现事件订阅，用于触发自动 Compaction 等

7、LakeSoul 技术解析——元数据（两阶段提交协议）

图：LakeSoul 技术解析——元数据（两阶段提交协议）

元数据的两阶段提交协议，在 Spark/Flink 流/批作业写数据时执行，发生冲突时会进行重试或者失败等。

8、LakeSoul 技术解析——元数据（自动并发冲突解决机制）

图：LakeSoul 技术解析——元数据（自动并发冲突解决机制）

细分作业写入时数据提交类型，不同类型之间冲突时会采取如下几种措施：

直接重试提交：兼容的写冲突（Append、Merge）
重新排列 Commit：Compaction、Update 的部分情况
不兼容冲突：并发全量 Update 等，提交失败

9、LakeSoul 技术解析——元数据（自动演进和快照管理）

图：LakeSoul 技术解析——元数据（自动演进和快照管理）

LakeSoul 还提供了 Schema 自动演进和快照管理的能力。

Schema 自动演进：

在写时自动处理 Schema 变更。
允许并发进行变更，不需要停作业再执行 DDL。
读数据自动兼容，读数据自动兼容包括新增加列：旧数据自动补充 null；删除列：旧数据自动过滤该列；提升类型精度：旧数据自动执行 Upcast。

元数据快照管理：

快照读、快照回滚、快照清理
默认读取最新的快照

10、LakeSoul 技术解析——Native IO（设计理念和设计原理）

图：LakeSoul 技术解析——Native IO（设计理念和设计原理）

Native IO 的设计主要考虑了以下方面：

Upsert、MOR 读写的封装：包括屏蔽读写实现细节，与计算引擎无关；向上提供简洁的 Writer、Reader 接口。
多引擎对接：包括方便对接各类 SQL、AI 引擎；支持向量化计算引擎；C、Java、Python 多语言支持。
高性能：包括针对对象存储读写优化；严格的内存占用控制。
实现原理如下：
基于 Rust、Apache Arrow-rs 和 DataFusion 实现异步 Writer、Reader：包括使用 Parquet 作为存储格式；Writer：主键排序(支持磁盘 spill)、异步并发Multipart upload；Reader：异步 Parquet RowGroup Prefetch、MOR 主键有序归并。
封装 C Interface。
通过 jnr-ffi/ctypes 进一步封装 Java、Python 接口。

11、LakeSoul 技术解析——Native IO（性能对比）

图：LakeSoul 技术解析——Native IO（性能对比）

上图是 Spark 读写 AWS S3的性能对比。可以看到：

Spark 读 AWS S3 读性能 Parquet Scan 对比：Native IO 远高于 Parquet-mr。
Spark 读 AWS S3 写性能 Parquet Write 对比：Native IO 高于 Parquet-mr。

测试报告链接https://github.com/meta-soul/LakeSoul/tree/main/lakesoul-spark/src/test/scala/org/apache/spark/sql/lakesoul/benchmark/io

二、LakeSoul 核心功能和优势

接下来介绍 LakeSoul 的核心功能和优势。

1、LakeSoul 核心功能——入湖

图：LakeSoul 核心功能——入湖

首先要介绍的核心功能是入湖。LakeSoul 流批一体表存储系统由 Spark 湖仓表、Flink 湖仓表、Schema 自动演进、计算与存储弹性扩容、并发写入更新等功能模块组成。其中 Spark湖仓表模块实现了使用 Spark SQL 语句创建湖仓表、向表中插入数据、更新表中已有数据、读取湖仓中的表、读取表的历史快照、回滚到表的历史版本等功能；Flink湖仓表模块实现了使用 Flink SQL 语句创建湖仓表、向表中插入数据、批量读取湖仓表、流式全量读取湖仓表、流式增量读取湖仓表等功能；Schema 自动演进模块实现了 Schema 变更时自动兼容读取表的旧数据等功能；被测系统支持计算与存储能力的弹性扩容；支持对同一个表的同一个分区进行并发写入更新。

多源数据实时入湖包括以下能力：

数据库多表实时入湖、Kafka 多 topic 实时入湖。
支持 Flink CDC、Debezium 等多种 CDC 采集工具。
自动发现新表、自动 DDL 变更。
精确一次（Exactly Once）：消息不会丢失，也不会被重复发送。

2、LakeSoul 核心功能——增量计算

图：LakeSoul 核心功能——增量计算

第二个核心功能是增量计算，LakeSoul 表在 CDC 读写时具有以下特性：

读写均兼容 Flink Changelog Stream。
增量读取 CDC 流。
全量读取合并后数据。

3、 LakeSoul 核心功能——多流拼接

图：LakeSoul 核心功能——多流拼接

第三个是多流拼接，原生支持多流并发写入拼接。

多个流可以是异构的，只要有相同主键列即可。
其余列可以不同。
消除 Join 计算，降低延迟，减少资源消耗。

4、LakeSoul 核心功能——权限和血缘

图：LakeSoul 核心功能——权限和血缘

第四是权限和血缘方面的功能。权限方面，实现了通用的 RBAC 的权限控制功能，用到了 PG 数据库本身的 RBAC 和行级别安全策略的功能。为了实现细粒度的表级别的权限控制，还用到了 Casbin。综合这些功能点，实现了较为完善的权限控制，并且对各引擎都是统一的。

数据血缘功能，采用了开源的 OpenLineage 协议来上报血缘关系。

5、LakeSoul 核心功能——自动维护

图：LakeSoul 核心功能——自动维护

第五是自动维护功能。自动维护包括自动全局 Compaction 服务，以及自动清理过期数据服务。

使用 PostgreSQL 的 Trigger 功能实现了如下功能：

达到 Compaction /清理条件时触发事件。
使用 Spark 作业监听事件并执行 Compaction /清理操作。
Spark 作业可以弹性伸缩。

6、LakeSoul 核心功能——性能评测

图：LakeSoul 性能评测

上图中展示了性能评测的一些数据，分别以 Hudi、Iceberg、LakeSoul 三种产品进行写 Write、读 Read 测试。测试时提供两种类型的表：写时复制（Copy on Write，COW）表和读时合并（Merge On Read，MOR）表，对于 Copy-On-Write Table，用户的 update 会重写数据所在的文件，所以是一个写放大很高，但是读放大为 0，适合写少读多的场景。对于 Merge-On-Read Table，整体的结构有点像 LSM-Tree，用户的写入先写入到 delta data 中，这部分数据使用行存，这部分 delta data 可以手动 merge 到存量文件中，整理为 parquet 的列存结构。

测试代码和数据如下：

https://github.com/meta-soul/ccf-bdci2022-datalake-contest-examples/tree/mor。
https://github.com/meta-soul/ccf-bdci2022-datalake-contest-examples/tree/cow。

测试方式如下：

第一批插入1000万行数据。
分10次插入100万行数据
MOR读取时没有执行过Compaction。

测试结论为：

S3云对象存储数据读取:读取 1000 万行数据，执行三次，平均读取时间 17.770秒，读性能相比 Spark 3.3.2 提升 1.722 倍；

S3 云对象存储数据写入:写入 1000 万行数据，执行三次，平均写入时间 43.194 秒，写性能相比 Spark 3.3.2 提升 1.800倍；

Merge on Read 场景下数据读取:读取 2000 万行数据，执行三次，平均读取时间 25.811 秒，读性能相比 Iceberg 1.1.0提升 1.420倍，相比 Hudi 0.12.2 提升 2.541倍；

Merge on Read 场景下数据写入:写入 2000 万行数据，执行三次，平均写入时间 266.628 秒，写性能相比 Iceberg 1.1.0提升 5.832 倍，相比 Hudi 0.12.2 提升 12.209 倍。

三、LakeSoul 应用场景和案例

接下来分享 LakeSoul 的一些应用场景和案例。

1、LakeSoul 应用场景——构建实时湖仓

图：LakeSoul 应用场景——构建实时湖仓

构建完整的实时湖仓一体链路包括：

多源数据实时入湖
全量、增量一体化分析
实时增量计算
BI、AI 多种上层应用

2、LakeSoul 应用场景——实时机器学习

图：LakeSoul 应用场景——实时机器学习

构建实时机器学习样本包括：

使用 LakeSoul 多流拼接功能
将多个特征流、标签流实时拼接
将样本流式传入机器学习训练，实现在线学习

四、LakeSoul 开源社区进展和未来规划

最后介绍一下 LakeSoul 开源社区进展和未来规划。

1、LakeSoul 开源社区

图：LakeSoul 开源社区

LakeSoul 于2021年底开源，采用 Apache License 2.0协议，成为国内首个开源湖仓框架。2023年5月将项目捐赠给 Linux 基金会，在 Linux Foundation AI & Data 基金会技术委员会答辩会议上，我们介绍了 LakeSoul 开源项目，得到了在场技术委员们的一致高度评价，成功通过投票，正式成为 Linux 基金会的孵化项目。成为 Linux Foundation AI & Data 旗下 Sandbox 项目。

未来 LakeSoul 项目将在 Linux 基金会的指引下，秉承开源、开放、协作的理念，全面建设发展 LakeSoul 开源社区。数元灵公司也将一如既往地全力支持 LakeSoul 开源项目和社区，持续贡献核心功能和特性。在这里，我们也真诚邀请广大开发者和用户参与到社区中来，共同打造新一代湖仓一体开源框架。

https://github.com/lakesoul-io/LakeSoul。

2、LakeSoul 未来演进方向

图：LakeSoul 未来演进方向

随着 LakeSoul 新版本的发布，进入 Linux 基金会孵化和通过国产信创认证，LakeSoul 项目的发展揭开了新的篇章。LakeSoul 近期还将陆续推出一系列更新：在功能方面，将会增加内置角色权限控制、数据质量校验等功能点，进一步完善数仓能力；在生态方面，将会推出原生 Python 读取接口并与多种 AI 框架对接，成为 AI 大模型的新一代数据底座。

未来 LakeSoul 将继续围绕功能、生态和性能这三方面进行迭代。

功能方面：

数据质量规则自动化校验
原生 Python Reader
Hadoop/K8s 自动化部署

生态方面：

支持更多数据库入湖
Kafka Connect Sink
LogStash Sink
Presto Connector

性能方面：

提升 MOR 性能
Minor compaction
支持引擎向量化计算
本地缓存