2024 年数据管理在人工智能中的四大趋势-51CTO.COM

在 2023 年即将结束之际，我们会发现随着 ChatGPT 的引入，世界发生了不可逆转的变化。人工智能的主流化继续以强劲势头推进，我们如何应对这些不断变化的时代需要信念的飞跃。人工智能可能同时具有潜在的变革性和不准确性！但我们的未来不仅仅是人工智能，因为我们仍然需要继续提高数据管理水平。

2024 年的数据与人工智能的趋势与管道和激活有关，特别是对于关注数据质量、平台架构和治理的人工智能而言。服务于多种信息角色的自主代理和任务助理可以部分或完全自动化所需的活动。此外，用于生成高质量数据集的工具可以在人工智能模型开发生命周期的各个阶段提供不断改进的模型。以下是 2024 年的四个主要趋势：

智能数据平台
人工智能代理
个性化人工智能堆栈
人工智能治理

一、智能数据平台

如今的数据平台很大程度上是一个“记录系统”堆栈，它将来自各种企业数据库和应用程序的数据汇集到一个公共存储库中。当前，该堆栈的主要用例是报告和分析，在极少数情况下是数据驱动的自动化。还有什么比在数据平台中注入智能来加速人工智能数据产品和应用程序在整个企业中的采用更好的呢？

我们将智能数据平台定义为大语言模型（LLM）基础设施是核心数据平台一部分的平台。该智能层可用于将智能注入两种应用程序：

核心数据应用程序：这些应用程序包括人工智能驱动的数据操作、语义搜索和发现代理、人工智能辅助摄取工具、人工智能辅助数据准备和转换以及用于数据分析的对话式人工智能代理。当代理通过从错误中学习进行推理时，此类应用程序的自动化程度只会变得更好。
智能应用：智能化的人工智能代理是第二种应用趋势。

下图显示了智能数据平台以及 AI 代理和应用程序的示意图。

智能数据平台是当前以仓库/湖为中心的数据平台环境的下一个演进。随着对简化消费界面的渴望，智能应用程序将推动未来十年的生产力。到 2024 年，企业需要认真审视当前的数据平台架构，并解决与数据孤岛、数据质量和重复以及堆栈组件碎片相关的挑战。高质量、精选的数据和元数据是生成式人工智能计划成功的关键。智能数据平台以及相关的数据应用程序将为人工智能用例支持提供基础数据和建模层基础设施。

二、人工智能代理

“人工智能代理”一词在 2023 年下半年成为一个流行词。人工智能代理是一个程序或系统，可以感知其环境、推理、将给定任务分解为一组步骤、做出决策并采取行动。像人类一样自主地完成这些特定任务的行动。

语言理解的终极意味着人类可以通过自然语言界面与人工智能程序进行对话、指导和互动。但人工智能程序除了帮助和回答与信息任务相关的问题（例如搜索、提取或生成代码和/或图像）之外还能做更多的事情吗？

人工智能代理能否扩大当今需要更多人工干预的任务自动化领域以及需要高层次思考、推理和解决问题的认知任务？例如，执行市场分析、风险评估和投资组合优化等任务。或者，执行迄今为止由于复杂性或成本而不太可能自动化的复杂任务。当今人工智能代理/技术承担显着提高业务生产力和人机界面的任务的能力主要因为有经济价所值驱动。

早期的研究尝试围绕数学相关活动、思想链/图和基于LLM的多步骤推理框架来展示自动化复杂任务的能力。这些早期的预言远未达到构建完全自主的信息代理应用程序所需的目标，但它们展示了可能性的潜力。

下显示了一种架构，该架构提供了一种通用范式，该范式结合了推理和行动的进步以及围绕该范式的早期工作，例如“思想链”，以解决各种语言推理和决策任务。这种推理和行动与语言模型的耦合使这些程序能够执行决策任务。这种范式被称为“ReAct”。

人工智能代理可以协助数据任务的自动化，例如数据分析、BI 仪表板开发、流程优化、数据输入、调度或基本客户支持。他们还可以自动化整个工作流程，例如供应链优化和库存管理。下面描述人工智能代理所采取的步骤，使用户能够通过动态创建想法/计划并调整行动计划来动态执行推理任务，同时还可以与外部交互将附加信息合并到推理中。

该流程的第一步是选择一个任务，并提示LLM将一个问题分解为一堆想法（子提示）。
步骤2、3、4，进一步使LLM能够打破这些一堆想法，并思考和推理出这些子想法。
第 5 步到第 8 步使 LLM 能够进行外部交互，例如根据完成想法/任务所需的信息提取信息。
自由形式的思想/行动集成用于实现不同的任务，例如分解问题、提取信息、执行常识/算术推理、指导搜索制定和综合最终答案。

人工智能信息代理是一种趋势，这可能会持续多年；预计 2024 年将在代理基础设施/工具以及早期采用方面取得重大进展。需要指出的是，我们如何理解当前人工智能架构承担更复杂任务的潜力，很大程度上仍然取决于潜力，而且还有很多未解决的问题。

尽管如此，企业必须以一种实用的方法来构建代理应用程序，并期望在某种程度上，与当前人工智能技术的差距将呈现出越来越复杂的自动化，而且这种差距可能会逐年缩小。它还必须考虑未来 12 个月内各个用例可能实现的自动化程度。此类项目的进化路径/旅程可能会通过此类努力取得更好的成功。

三、个性化人工智能堆栈

第三个趋势包括通过三种方法个性化或定制模型和/或其响应：

使用更多上下文数据微调模型。
改进用于训练或微调模型的数据集，包括合成数据。
使用矢量搜索来利用具有相关数据的模型。

A 微调模型

虽然像 OpenAI 的 GPT-4 这样的基础模型为企业提供了一个机会来原型化生成式 AI 模型用例的潜力，但它们并没有充分解决企业数据的隐私和安全性、所使用的可视化数据的开放性等问题训练此类模型的能力，针对特定要求对其进行微调的能力，实现任何给定任务所需的准确性以及总体成本价值主张。

为了超越原型和获得更好结果的需求，我们可能会看到定制或特定任务的小语言模型 (SLM) 的兴起，特别是在利基和垂直应用程序中。这些模型将利用基础/预训练基础模型作为训练 SLM 或使用领域/企业数据进行微调的起点。下图显示了模型微调的生命周期

简化定制 SLM 的开发、实现此类模型的生命周期管理并将其从实验到部署仍然是一项挑战：

基础LLM选择：有多个、易于理解的选项，但缺乏支持性的详细评估可能会使选择基础模型变得混乱和令人畏惧。
参考数据集：在训练和RLHF微调以及模型评估和测试过程中需要参考数据集。参考数据集的可用性和创建仍然很费力，通常是主观的，并且很大程度上依赖于人类。原始任务/领域特定或合成数据的可用性可以显着加快模型开发的速度并缩短开发时间。
微调模型：将指令微调模型与现实世界对模型性能的期望进行调整和调整所需的关键训练步骤之一是应用人类反馈。这一步骤使模型能够减少幻觉、偏见、危害并提高安全性。参数高效微调 (PEFT) 和 RLHF 是流行的常用技术，有助于根据任务/领域特定上下文微调基础 LLM。尽管现有技术得到了显着改进，但由于语言响应验证的创造性，高质量的任务/领域特定提示响应对/数据集和参考数据集（包括所需的人类反馈）仍然是手动的、费力的，并且容易发生变化。
测试和评估模型：对处理复杂的自然语言的微调模型的评估取决于任务创造力和响应评估，这通常是手动和主观的。虽然现在可以使用各种指标和技术，但它们通常不足以评估模型。来自另一个参考或高级模型的响应等技术用于生成参考评估数据集，以帮助提高评估阶段的效率。模型还必须经过安全性、偏差和危害测试。

微调模型所需任务的成功取决于仍不成熟的人工智能治理领域。人工智能治理是一种上升趋势，需要提供模型的可解释性，以建立信任并满足监管合规性。它还用于实时监控任何性能下降、负责任的使用、成本和产品可靠性问题的及时响应。

围绕 AI 模型开发、生命周期管理、部署和监控的工具可用性的兴起，解决上述挑战并简化模型开发和生命周期管理，是 SLM 和任务特定模型成功的关键。

请注意，特定任务的人工智能模型仍处于实验阶段，还有很多未解决的问题。这将导致大量此类实验可能会失败。尽管如此，这个主题在 2024 年整个生态系统的投资将会增加。

B 高质量数据生态系统

虽然使用数万亿个参数进行训练的模型（例如 OpenAI 的 GPT-4）增加了它们的知识库，但最近的实验表明，使用更好数据的更小模型可能能够超越 OpenAI 现在所说的非常大的 LLM 的“前沿模型”。 ”

通用模型和自定义模型的高质量数据集的可用性仍然是一个大问题，且不受隐私和版权的影响。大多数LLM预培训都是基于基于互联网的网络抓取数据集、书籍和一些源于学术界或研究的实验数据集。虽然可以为微调阶段获取一些数据集，但根据任务/领域，此类现成数据集的选择会进一步缩小。

通常，甚至没有足够的数据来训练模型。以欺诈为例。据推测，组织并没有充斥着猖獗的欺诈行为，因此对欺诈场景的了解有限。但他们需要使用广泛的欺诈可能性来训练模型。合成数据是提供高质量数据以提高LLM研究和开发速度的答案。

合成数据可以定义为不是直接从任何现实世界数据获得的数据，而是模仿现实世界数据的属性和特征而人为创建的数据。综合数据集可能是提供高质量数据的办法，以提高许多用例中的LLM研究和开发速度。

使用合成数据的主要优点之一是它可以保护最终用户的隐私，遵守版权问题，并使企业能够满足原始来源的隐私要求。也避免了信息的无意泄露，同时模型研发不断取得进展。合成数据对于满足训练大型语言模型不断增长的需求非常重要。通过正确的解决方案，可以以经济高效的方式解决大型语言模型所需的高质量数据，并为人工智能研究、模型开发和评估提供持续动力。有一些想法可以使用前沿模型本身生成合成数据集。尽管如此，很明显，创建和使用合成数据集有可能解决日益饥饿的模型对更多数据的需求。

我们知道，考虑到任务的性质，这样的生态系统/服务线在解决高质量数据集的需求方面发挥作用有很大的动力。如今，各种初创公司和服务提供商专门致力于围绕通用培训数据需求提供带注释的图像和文本数据。然而，有可能进一步扩展这些服务，以包含领域/任务特定数据集的需求，这一趋势可能会在 2024 年出现势头。

C 集成向量数据库

选择矢量数据库具有挑战性。有多种因素在起作用，包括可扩展性、延迟、成本、每秒查询次数等。传统数据库的主要用例是关键字查询与使用上下文搜索。大多数企业应用程序可能需要这两种功能。因此，我们的选择是在传统 DBMS 中引入矢量数据库功能。

大多数未来的企业人工智能应用程序都需要处理结构化和非结构化数据。管理多个数据库会导致效率低下、潜在的竞争条件、OLAP 数据与矢量数据库中的矢量索引之间的数据不一致以及导致数据不一致的管理开销。

因此，集成矢量数据库最适合需要最佳查询功能和语义搜索的应用程序。例如，矢量数据库不仅可以嵌入组织的财务报告，还可以对这些数据模型建立索引并将它们存储在同一数据库中，同时提供语义/相似性搜索功能。

许多 DBMS 和 Lakehouse 参与者正在将向量嵌入和搜索功能纳入其现有产品中。随着企业构建和部署 LLM 用例，具有语义搜索功能的集成数据库/湖屋可能会在 2024 年获得进一步的关注。

构建人工智能应用程序的最常见技术是检索增强生成（RAG），它结合了LLM和组织业务数据来提供对自然语言问题的响应。RAG 集成了一个流程，在调用 LLM 完成 API 之前，首先搜索矢量化数据的相似性，从而提高响应准确性。

我们看到两个影响 RAG 用例的趋势。其中之一与不断增加的 LLM 上下文大小有关，它可以直接获取输入数据，而无需通过数据库进行路由。这降低了执行额外且复杂的 RAG 步骤的需要。然而，这并没有减少对矢量数据库的需求，因为它们预先过滤了LLM的提示，这使得人工智能应用程序具有成本效益和高性能。他们还可以缓存提示及其响应，从而避免对 LLM 进行不必要且昂贵的 API 调用以进行重复查询。这些精选数据将来可用于微调组织的 SLM。

四、人工智能治理

高管们要求他们的领导者快速跟踪人工智能项目，因为他们渴望从所有结构化和非结构化数据资产中提取前所未有的见解。然而，IT 领导者知道，将人工智能应用到底层数据基础设施绝非易事。他们知道人工智能应用程序的成功取决于确保数据质量、安全性、隐私和治理。因此，需要人工智能治理。但它到底是什么？

人工智能治理，就像数据治理一样，需要一个共同的定义。事实上，人工智能治理应该与数据治理齐头并进。

与传统人工智能相比，生成式人工智能的用户范围要广泛得多。此外， AI代理还引入了向量搜索、RAG和提示工程等新概念。因此，现代人工智能治理必须满足多种角色的需求，例如模型所有者和验证者、审计团队、数据工程师、数据科学家、MLOps 工程师、合规性、隐私和数据安全团队等。

在最高层面，人工智能治理需要跨两个层面应用

模型训练或微调：治理任务包括识别正确的数据源、其保真度、数据漂移、模型权重和评估结果。比较版本之间的模型指标的能力可以进一步帮助了解模型性能的趋势。具体来说，在 CPU 和 GPU 上使用不同模型的每次迭代的训练成本是人工智能治理的重要考虑因素。目前，由于资源要求非常高，参与基础模型训练的厂商很少。随着近年来这些成本的下降，越来越多的团队正在进行微调。随着成本进一步下降，我们可能会看到更多的组织或部门训练自己的模型。
模型使用/推理：治理任务需要确保业务使用安全。任务包括风险识别和风险缓解、模型的可解释性、成本以及使用人工智能模型实现业务用例目标的性能。

下图显示了人工智能治理计划的构建模块。

人工智能治理计划由四个构建模块组成：

1.模型发现

模型正在快速激增，反映了该领域的动态和不断扩展的性质。到 2023 年底，Hugging Face 的模特数量已接近 50 万。问题是，当这些出现在您的人工智能框架（如 Google Cloud 的 Vertex Model Garden 或 AWS Bedrock）中时，开发人员将开始使用其中的一些，无论是否经过风险管理和合规团队的批准。为了克服这个问题，许多人开始采用模型目录。

在这里，目录的目的是发现正在使用的模型、它们的版本号和批准状态。它还记录了模型的所有者、其目的和用途。对于批准的模型，目录将显示用于训练模型的数据集、模型的评估方式及其公平性评分。风险记分卡捕获模型的漏洞及其影响，并应定期审查以确保风险在阈值内。

理想情况下，模型目录应该是数据目录的扩展，这样就不存在数据和人工智能治理的碎片。

2.模型消费

在模型消费中，人工智能治理的重点是将业务用例映射到批准的模型并识别数据安全风险。人工智能治理的这一部分处理对企业数据的不安全使用、提示注入和数据丢失的担忧。

它还负责跟踪整个模型生命周期谱系，包括法律、CISO、CDO、审计师等的批准，一直到模型退役。控制到位后，它可以加快模型部署到生产中的速度。

治理工具不仅应该允许识别偏见、危害、泄露、知识产权侵权等领域的风险，还应该记录风险缓解策略。人工智能治理工具应该有助于提供模型的可解释性。

3.持续监控

一旦部署了批准的模型，他们需要有一种机制来跟踪它们的大规模表现，并自动扫描响应中是否存在幻觉和其他不安全内容。人工智能模型的最大问题之一是它们的不确定性反应可能会导致幻觉。因此，监测准确性和相关性非常关键。随着更多人工智能模型在 2024 年投入生产，跟踪其性能和成本将变得至关重要。

需要不断监控上述风险领域是否存在无法解释的变化和异常。在检测到异常情况时，应智能地发出警报和通知，而不会造成“警报疲劳”。

尽管数据安全和隐私任务贯穿人工智能治理的每个部分，但监控用户、他们的权利和相关的安全策略是一个重要组成部分。

4.风险管理

模型记分卡、推理/使用监控数据集和仪表板以及工作流程自动化对于维持人工智能应用程序的健康以及及时采取补救措施以应对预期性能的任何下降至关重要。自动化工作流程可以帮助创建数据和模型推理 KPI，并根据需要触发警报，以确保模型所有者可以启动补救措施。

该工具应提供事件管理功能来记录解决事件所采取的步骤。最后，工作流程应允许评估遵守相关的人工智能法规，例如NIST 人工智能风险管理框架。

人工智能治理是任何人工智能计划取得成功的基础。我们预计 2024 年传统数据目录公司等多个供应商以及 IBM等大型平台提供商将主要关注人工智能治理。Databricks 的 Unity Catalog 已经将数据目录与 AI 模型元数据融合在一起。

2023 年最后几天发布的几项新法规和标准进一步加速了这一重点。从欧盟人工智能法案到ISO 42001 ，再到 OpenAI 的准备框架，它们都旨在促进负责任地使用人工智能。例如，OpenAI 框架有四个目标——“跟踪、评估、预测和保护”模型风险。