鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Meta等最新研究：多token预测，提升大模型推理效率

发布于 2024-5-27 12:38

浏览

0收藏

GPT-4、Gemini系列、Llama-3等开闭源大模型，通常使用的是下一个token预测（Next-token Prediction）的损失函数进行预训练。

这种方法虽然强大，但有很多局限性，例如，需要大量的训练数据才能使模型达到人类儿童的智商，并且随着模型参数的增大推理效率会变差。

因此，Meta、巴黎理工大学和巴黎萨克雷大学提出了一种全新训练方法多token预测（Multi-token Prediction），在训练的过程中要求模型在每个位置上同时预测接下来的n个Token，以提升模型推理效率，并且不会增加预训练时间。

研究人员在130亿、67亿、30亿等多种不同参数的模型对该技术进行了综合评估。结果显示，130亿参数模型在 HumanEval上解决问题能力提高了12%，在 MBPP上解决能力提高了17%，并且推理效率也更好。

论文地址：https://arxiv.org/abs/2404.19737

Meta等最新研究：多token预测，提升大模型推理效率-AI.x社区

多token预测架构介绍

为了有效实现多Token预测,研究人员设计了一种巧妙的模型架构。该架构包含一个共享的Transformer主干网络,用于从输入获取上下文表示。

然后该上下文表示被并行输入到n个独立的输出头网络中,每个输出头负责预测一个未来Token。在推理阶段,只需使用单个下一Token预测，输出头即可进行自回归生成。而其他输出头则可被用于加速模型的推理效率。

Meta等最新研究：多token预测，提升大模型推理效率-AI.x社区

对于训练语料中的每个位置，模型需要使用独立的输出头预测接下来的n个Token。将多Token预测作为辅助训练任务，可以提高模型在代码和自然语言文本方面的任务性能，而不会增加训练时间。

Meta等最新研究：多token预测，提升大模型推理效率-AI.x社区

降低GPU内存使用

为了解决多token预测可能导致GPU内存使用量增加的问题，研究人员开发了一种前向和后向传播顺序，模型能够减少在内存中同时存储的梯度数量，从而降低了内存使用量使得训练更加高效。

在前向传播过程中，模型会首先通过共享主干生成潜在表示，然后按顺序计算每个独立输出头的前向传播。对于每个输出头，计算完毕后立即进行后向传播，并释放该头的中间数据，而不是等到所有输出头的前向传播完成后才进行。

Meta等最新研究：多token预测，提升大模型推理效率-AI.x社区

在每个输出头的后向传播中，累积梯度到共享主干，而不是在所有输出头计算完毕后才进行。这样可以确保在任何时候，内存中只存在一个输出头的梯度。

优化推理效率

研究人员发现，将多token预测与自推测解码相结合，可以进一步提升大模型的推理效率。与传统逐个token解码不同的是，自推测解码允许模型一次性生成多个token，然后利用额外的输出头并行验证和优化这些预测。

这种方法显著减少了模型生成文本所需的步骤，从而加快了模型的整体推理效率并减少了对算力的消耗。

Meta等最新研究：多token预测，提升大模型推理效率-AI.x社区

研究人员在不同参数的模型实验了该优化效果，结果显示，比传统的优化推理效率提升了3倍左右。

本文转自 AIGC开放社区，作者： AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/I73utAzipiGH-LE6EJxaiw

标签

赞

收藏

回复

举报

回复

相关推荐

一次预测多个token，Meta新模型推理加速3倍，编程任务提高17%

Crystalcxt • 2183浏览 • 0回复
Meta 违背经典模型结构，一次预测多个token，路径可行，大模型大幅提速指日可待！

51CTO技术栈 • 2464浏览 • 0回复
next-token被淘汰！Meta实测「多token」训练方法，推理提速3倍，性能大涨10%+

duhorse • 2668浏览 • 0回复
Self-Attention在时间序列预测中有效吗？新Transformer架构效率效果双提升

海因斯DK • 3984浏览 • 0回复
思维链缓存-Buffer of Thoughts，北大、UC伯克利、斯坦福最新研究大幅提升LLM推理

angel • 4210浏览 • 0回复
近期研究趋势：多变量当辅助序列提升多元时序预测效果

海因斯DK • 3760浏览 • 0回复
最新研究提出混合动态剪枝方法，升级Transformer推理效率

xuxiangda • 2882浏览 • 0回复
Meta开源用于数学等复杂推理AI Agent—HUSKY

Aceryt • 2201浏览 • 0回复
美国律师协会：ChatGPT等生成式AI，能帮助律师提升效率

Aceryt • 2284浏览 • 0回复
从openAI最新模型GPT-o1再谈思维链(Cot)技术，大模型该怎么提升其逻辑推理能力？

AI探索时代 • 6110浏览 • 0回复
2025 年 10 大 AI 方向：高效推理、多模态等

云原生AI百宝箱 • 1843浏览 • 0回复
MHA -> GQA：提升 LLM 推理效率

amei2000go • 1725浏览 • 0回复
多模态大模型Reyes增加batch推理方式，提升推理速度

大模型自然语言处理 • 1629浏览 • 0回复
Meta公布BLT新架构：告别token，拥抱patch

51CTO内容精选 • 1352浏览 • 0回复
大推理模型DeepSeek-R1深度解读：成本降低95%，推动语言模型推理效率新高度

风云2002_1 • 1.0w浏览 • 0回复
2024‘Meta 推出CTR集成框架 CETNet，多 CTR 模型集成大幅提升预测精度

AIPaperDaily • 1505浏览 • 0回复
Tiktok多模态大模型最新研究：显示序列建模提升视频理解能力

海因斯DK • 1714浏览 • 0回复
英伟达发布天气模型CorrDiff，预测效率大涨

Aceryt • 1425浏览 • 0回复
斯坦福等开源代码定位AI Agent，极大提升开发、维护效率

Aceryt • 978浏览 • 0回复

LV.6

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

111

帖子

1104

声望

1

粉丝

关注

最近发布

刚刚，o4-mini发布！OpenAI史上最强、最智能模型 6h前发布
超越Sora！谷歌推出Veo 2，生成8秒超逼真视频 1天前发布

热门推荐

20000颗星！100多个Agent超级工具，开源MCP大合集 0回复

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

上一篇：德勤：中国、印度等对ChatGPT等生成式AI应用，处领先地位

下一篇： ChatGPT成知名度最高生成式AI产品，使用频率却不高

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载