Transformer，会笑到最后吗？-51CTO.COM

出品 | 51CTO技术栈（微信号：blog51cto）

Transformer 架构为当今最流行的公共和私有AI 模型提供支持。那么我们想知道——接下来是什么？这种架构是否会带来更好的推理？Transformer 之后会是什么？

一、Transformer 的问题及其挑战者们

Transformer 架构的自注意力机制允许模型同时衡量每个输入 token 对输入序列中所有 token 的重要性。通过捕获长距离依赖关系和复杂的 token 关系，这有助于提高模型对语言和计算机视觉的理解。然而，这意味着计算复杂度会随着长序列（例如 DNA）的增加而增加，从而导致性能下降和内存消耗增加。解决长序列问题的一些解决方案和研究方法包括：

在硬件上改进 Transformer ：FlashAttention是一项很有前途的技术。本文声称，通过仔细管理 GPU 上不同级别的快速和慢速内存的读写，可以提高 Transformer 的性能。这是通过使注意力算法具有 IO 感知能力来实现的，这减少了 GPU 的高带宽内存 (HBM) 和静态随机存取存储器 (SRAM) 之间的读写次数。

近似注意力：自注意力机制具有 O(n^2) 复杂度，其中 n 表示输入序列的长度。有没有办法将这种二次计算复杂度降低到线性，以便 Transformer 可以更好地处理长序列？这里的优化包括 Reformer、Performers、 Skyformer等技术。

除了这些降低 transformer 复杂性的优化之外，一些替代模型正在挑战 transformer 的主导地位（但对于大多数模型来说还处于早期阶段）：

状态空间模型：这是一类与循环 (RNN) 和卷积 (CNN) 神经网络相关的模型，它们对长序列进行线性或近线性计算复杂度计算。像Mamba这样的状态空间模型 (SSM)可以更好地处理长距离关系，但在性能上落后于 Transformer。

这些研究方法现在已经走出了大学实验室，并以新模型的形式进入公共领域，供所有人尝试。此外，最新的模型发布可以告诉我们底层技术的状态以及 Transformer 替代方案的可行路径。

二、值得关注的发布

我们不断听到 OpenAI、Cohere、Anthropic 和 Mistral 等知名公司发布最新最出色的模型的消息。Meta 的编译器优化基础模型因其在代码和编译器优化方面的有效性而引人注目。

除了主流的 Transformer 架构外，我们现在还看到了生产级状态空间模型 (SSM)、混合 SSM-Transformer 模型、专家混合 (MoE) 和专家组合 (CoE) 模型。与最先进的开源模型相比，这些模型在多个基准测试中表现良好。其中脱颖而出的包括：

Databricks开源 DBRX模型：该 MoE 模型有 132B 个参数。它有 16 位专家，其中 4 位在推理或训练期间同时处于活动状态。它支持 32K 上下文窗口，并且该模型在 12T 令牌上进行训练。其他一些有趣的细节 — — 它耗时 3 个月，耗资 1000 万美元，使用 3072 个 Nvidia GPU 通过 3.2Tbps InfiniBand 连接，完成了模型的预训练、后训练、评估、红队测试和细化。

SambaNova Systems 发布的Samba CoE v0.2：该 CoE 模型由五个 7B 参数专家组成，其中只有一个在推理时处于活动状态。这些专家都是开源模型，除了专家之外，该模型还有一个路由器。它可以了解哪个模型最适合特定查询，并将请求路由到该模型。它的速度非常快，每秒生成 330 个令牌。

AI21 实验室发布了Jamba：这是一种混合 Transformer-Mamba MoE 模型。它是第一个基于 Mamba 的生产级模型，具有传统 Transformer 架构的元素。“Transformer 模型有两个缺点：首先，其高内存和计算要求阻碍了长上下文的处理，其中键值 (KV) 缓存大小成为限制因素。其次，由于每个生成的 token 都会对整个上下文执行计算，因此它缺乏单一的摘要状态，导致推理速度慢且吞吐量低”。像 Mamba 这样的 SSM 可以更好地处理长距离关系，但在性能上落后于 Transformer。Jamba 弥补了纯 SSM 模型的固有限制，提供 256K 上下文窗口并在单个 GPU 上容纳 140K 上下文。

三、企业采用挑战

尽管最新的研究和模型发布对支持 Transformer 架构作为下一个前沿领域有着巨大的希望，但我们还必须考虑阻碍企业利用这一优势的技术挑战：

1.缺少适合企业的功能

想象一下，向 CXO 销售的产品没有基于角色的访问控制 (RBAC)、单点登录 (SSO) 或无法访问日志（提示和输出）等简单功能。当今的模型可能还不适合企业，但企业正在制定单独的预算，以确保他们不会错过下一个重大事件。

2.打破以往的运作方式

AI Copilot和Agent将会使数据和应用程序的安全变得更加复杂。

想象一个简单的用例：你每天使用的视频会议应用程序引入了 AI 摘要功能。作为用户，你可能喜欢会议后获取记录的功能，但在受监管的行业中，这一增强功能可能突然成为 CISO 的噩梦。实际上，到目前为止运行良好的功能已经失效，需要经过额外的安全审查。当 SaaS 应用程序引入此类功能时，企业需要设置护栏来确保数据隐私和合规性。

3.RAG与微调的取舍

可以同时部署两者或不部署两者，而无需做出太多牺牲。人们可以将检索增强生成 (RAG) 视为确保事实正确呈现且信息最新的一种方式，而微调则可以被视为可实现最佳模型质量。微调很难，这导致一些模型供应商不建议这样做。它还包括过度拟合的挑战，这会对模型质量产生不利影响。微调似乎受到多方压力——随着模型上下文窗口的增加和代币成本的下降，RAG 可能成为企业的更好部署选择。

在 RAG 的背景下， Cohere 最近推出的 Command R+ 模型是第一个在聊天机器人领域击败 GPT-4 的开放权重模型。Command R+ 是最先进的 RAG 优化模型，旨在为企业级工作流程提供支持。

四、写在最后

这一波AI的部署始于更加智能的聊天机器人。20多个月过去，初创公司和企业已经想出了如何将GenAI打包成Copilot，以增强人类的知识和技能。下一步自然是将多步骤工作流、记忆和个性化等内容打包成智能体，以解决销售和工程等多种职能中的用例。

可以预期的是，用户的简单提示将使Agent能够对意图进行分类，将目标分解为多个步骤并完成任务，无论是互联网搜索、将身份验证分解为多种工具还是从过去的重复行为中学习。

想预订夏威夷之旅、从你最喜欢的餐厅订餐或管理个人财务吗？未来诸位都能够使用个性化Agent来安全地管理这些任务，这是有可能的，但从技术角度来看，我们距离这个未来还很遥远。