现代数据架构的探索与实践：知语数据编织系统-51CTO.COM

一、背景知识简介

1. 历史回顾

为什么需要数据编织？回顾过去几十年，数据管理和知识管理是两条平行线，独立发展。现在到了认知人工智能时代，我们知道，数据原本就是分布式的，未来也将是分布式的。过去的数据管理方式和未来的数据管理方式如何与知识管理无缝衔接是当前需要思考的重要问题，数据编织正是在这样的背景下诞生的。

2. 技术趋势

美国的数据编织技术已相对成熟，国内则需要我们一起努力推动数据编织的发展，应用先进的数据管理思想，以适应人工智能时代的需要。

3. 数据管理面临的问题

问题之一：数据规模急剧扩大，数据处理速度远慢于数据增长速度，利用传统数据架构处理非结构化数据效率低。

问题之二：在混合多云环境中，数据处理“高并发”，多重数据困境和复杂性增加。

问题之三：数据高度分散，存在“数据孤岛”，烟囱式的封闭数据架构造成数据运用时的缺失与不便。

4. 传统数据集成方式的缺陷

重复数据：数据分层存储造成大量数据冗余。出现这一问题主要是为了解决性能问题，为了加速查询，不得不做一定的冗余，物化部分信息。其不仅意味着昂贵的存储空间价格；而且不够灵活，每次修改都需要对重复数据进行额外操作。

非共享的元数据规范：不可共享的元数据规范降低了灵活性，难以管理，将会导致不一致的报告结果。

灵活局限性：在商务智能系统中采用抽象化和封装的概念，对于提高自身的灵活性、更容易地实现改变和采纳新的工程技术非常重要。

数据质量下降：多数据副本导致的问题。

有局限的运营报告支持：从生产数据库中获取资源到报告中，数据需要多次复制到另一区域，在极短时间内完成不可能。大多数商务智能没有按照运营报告与运营数据关联的方式来设计。我们不得不简化结构来支持运营系统，最根本的是移除数据存储区和最少化复制步骤来简化结构。

5. 数据管理方式能力对比

数据编织并非要取代数据仓库或数据湖，数仓和数据湖是物理集成的方式，而数据编织则是在逻辑层面上更好地管理数据，因此具有一些天然优势。

6. 数据编织的变迁

在数据编织 1.0 时代，Gartner 将数据编织定义为一种设计理念，充当数据和连接过程的集成层。当时只是定义了框架，并没有给出深入的实现方式。

2022 年，进入数据编织 2.0 时代，外部数据和边缘数据被更多地纳入中央数据范围，因此涉及如何将内部数据和外部数据做互联互通。

2024 年 3 月份，美军提出统一数据参考架构 UDRA，用数据编织的技术实现数据网格的架构，标志着数据编织已进入 3.0 时代。我们在做自己的信创产品时，可以直接基于 3.0 时代的架构。

7. 数据网格

在数据网格架构下，首先要把数据当作产品，还要明确所有数据的所有权，以及如何做自助服务和联合治理。数据编织 3.0 时代可以很好地支持数据网格的实现。

二、知语数据编织

1. 知语数据编织智能体

知语数据编织智能体，旨在将数据编织引擎、大模型和知识管理全部网络化，构建虚拟数据网络。随着人工智能技术的推动，无论元数据还是数据，都在一套体系下进行数据编织，当然具体实现的技术引擎可能不同。

我们不仅要解决单体模型的问题，还要解决主从模式部署、联邦式网络部署模式的问题，要实现与大模型之间的无缝整合。因此我们设计了如下图所示的智能体架构。

过去在做这种架构的时候，常常会把数据层做得很大。但是在数据编织体系下，重心回到了元数据的处理。元数据在整个数据编织网络体系下，是唯一的一个知识审核点，也就是说知识表示是通过元数据平台来表示的。我们所处理的数据还是分散在各处的，并不需要物理上全量集中，而元数据会被统一集中管理。包括技术元数据、管理元数据、业务元数据，都被统一管理，并且无论是结构化数据还是非结构化数据，所有的元数据模型都是统一的，甚至一些仪表盘、工作流程、机器学习模型的元数据也都统一在一个图模型的表示方法之下。