鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

苹果发布高效双EMA梯度优化方法，适配Transformer、Mamba模型

发布于 2024-11-4 09:59

3634浏览

0收藏

在训练深度学习模型时，优化复杂的非凸损失函数是一个非常难的挑战。目前广泛使用的优化器是Adam、AdamW等，主要依赖于EMA（指数移动平均）来累积梯度信息，但这种方法存在一些局限性。

例如，在训练超大规模数据集和复杂架构模型时，EMA 可能无法有效地捕捉到梯度的变化趋势，可能会忽略掉一些重要的局部信息，导致模型在训练过程中陷入局部优解，而无法找到全局最优解。

为了解决这一难题，苹果和瑞士洛桑联邦理工学院的研究人员提出了AdEMAMix 优化器，通过混合了两个EMA一个对近期梯度敏感，另一个能整合更久远梯度的信息实现局部和全局的优化。

论文地址：https://arxiv.org/abs/2409.03137

苹果发布高效双EMA梯度优化方法，适配Transformer、Mamba模型-AI.x社区

AdEMAMix优化器的创新在于对动量估计的重新思考。在传统的Adam优化器中，动量是通过指数移动平均（EMA）来实现的，这种方法虽然在实践中被证明是有效的，但它在处理历史梯度信息时存在很大局限性。

这是因为单一的EMA在给予近期梯度较高权重的同时，很难为早期的梯度保留足够的影响力，在一定程度上限制了优化器利用历史信息的能力，尤其是在那些需要长期依赖历史数据的任务中。

而AdEMAMix优化器引入了两种不同速率的EMA。第一种是快速变化的EMA，它对近期的梯度变化反应灵敏，能够快速调整优化方向以适应损失景观的局部变化。

苹果发布高效双EMA梯度优化方法，适配Transformer、Mamba模型-AI.x社区

第二种则是慢速变化的EMA，它对历史梯度给予更高的权重，使得优化器能够在长时间内保持对早期信息的记忆。通过这种双EMA的结构，使AdEMAMix优化器能够在保持对近期变化敏感的同时，有效地利用长期积累的历史信息。

苹果发布高效双EMA梯度优化方法，适配Transformer、Mamba模型-AI.x社区

平衡这两种EMA的权重也是一个关键点，AdEMAMix引入了一个参数，用于调节慢速EMA在最终更新中的贡献。通过精心设计的调度策略，使参数的值会随着训练的进行而动态调整，从而在训练初期避免过大的更新，同时在后期逐渐增加对历史信息的利用。

此外，AdEMAMix还对传统的动量更新规则进行了改进。在每次迭代中，优化器会计算一个结合了两种EMA的更新向量，并通过这个向量来调整模型参数。

这样不仅考虑了梯度的方向和大小，还考虑了梯度的历史信息，使得优化器能够在复杂的损失景观中更加有效地寻找最优解。

苹果发布高效双EMA梯度优化方法，适配Transformer、Mamba模型-AI.x社区

为了评估AdEMAMix优化器的性能，研究人员对Transformer、Mamba和VIT三种不同架构的大模型进行了综合测试。

在 Transformer 模型的测试中，研究人员分别对 110M、335M 和 1.3B 三种不同规模的模型进行了实验。例如，在相同的训练条件下，对于 110M 参数的模型，传统的优化器可能需要更多的迭代次数和训练时间才能达到一定性能，而AdEMAMix 优化器的时间大大减少性能也获得提升。

苹果发布高效双EMA梯度优化方法，适配Transformer、Mamba模型-AI.x社区

在 Mamba 模型的测试中，研究人员使用了 168M 参数的 Mamba 模型和 FineWeb 数据集。AdEMAMix同样获得了非常好的成绩，也证明了该方法可以扩展到不同类型的模型中。

苹果发布高效双EMA梯度优化方法，适配Transformer、Mamba模型-AI.x社区

在 VIT 模型的测试中，研究人员使用了 ImageNet 的两个子集进行多次 epoch 的训练。例如，在训练 24M 参数模型在 11M 图像上进行 37 个epoch 时，AdEMAMix 能够很容易地找到优于传统优化器的参数设置，从而降低训练损失。当模型参数增加到 86M时，AdEMAMix 仍能较容易地找到优于基线的参数。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/1fcDph5Rr74cLBwzOb_FJw

标签

赞

收藏

回复

举报

回复

相关推荐

今日arXiv最热大模型论文：超越LoRA，北京大学提出预训练模型非梯度优化法

pangguiyu • 2625浏览 • 0回复
比肩Transformer的Mamba在时间序列上有效吗？

海因斯DK • 6188浏览 • 0回复
在12个视频理解任务中，Mamba先打败了Transformer

轻薄滴假象 • 2884浏览 • 0回复
“一模型双任务” | Face-Adapter:超越基于GAN和Diffusion的最新方法

angel • 4206浏览 • 0回复
比Transformer更快更省，Mamba终于卷到网络领域了

arnoldzhw • 5664浏览 • 0回复
新Transformer架构效率效果双提升

海因斯DK • 3883浏览 • 0回复
如何高效定制视频扩散模型？卡内基梅隆提出VADER：通过奖励梯度进行视频扩散对齐

angel • 1886浏览 • 0回复
力压Transformer，详解Mamba和状态空间模型

小虎哦哦 • 2930浏览 • 0回复
苹果发布新基准，重新定义大模型强弱！

51CTO技术栈 • 1656浏览 • 0回复
Jamba-1.5：大规模混合Transformer-Mamba模型

sbf_2000 • 2551浏览 • 0回复
定制你的AI助手：大型语言模型适配方法详解

芝士AI吃鱼 • 2070浏览 • 0回复
神经网络之损失函数与优化函数——梯度下降

AI探索时代 • 1553浏览 • 0回复
2025年大模型与Transformer架构：技术前沿与未来趋势报告

欧米伽未来研究所 • 5304浏览 • 0回复
分布式训练通信优化，重叠通信，参数子集同步，低精度外梯度量化

AI研究前瞻 • 1535浏览 • 0回复
为什么大语言模型难以处理长上下文？从 Transformer 到 Mamba

Baihai_IDP • 2152浏览 • 0回复
xLSTM：拳打Transformer，脚踢Mamba？！

鲁班模锤1 • 1438浏览 • 0回复
GoRA: 基于梯度驱动的自适应低秩微调方法

顿数AI • 1406浏览 • 0回复
苹果开源通用视觉模型：创新训练方法，超1000颗星

Aceryt • 1308浏览 • 0回复
RAG分块优化之语义分块方法CrossFormer模型技术思路

大模型自然语言处理 • 556浏览 • 0回复

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

声望

粉丝

关注

最近发布

斯坦福等开源代码定位AI Agent，极大提升开发、维护效率 4天前发布
AI Agent大变天！谷歌开源A2A，一夜改变智能体交互 4天前发布

热门推荐

20000颗星！100多个Agent超级工具，开源MCP大合集 0回复

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇：突发！OpenAI正式发布ChatGPT网络搜索，彻底颠覆谷歌！

下一篇：全球首个270万菜品组合AI餐厅，用类ChatGPT辅助服务员

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载