Meta 重磅发布 DyT 函数:Transformer 无需归一化层,性能反超传统方案!

发布于 2025-3-20 07:32
浏览
0收藏

1. Transformers without Normalization

Meta 重磅发布 DyT 函数:Transformer 无需归一化层,性能反超传统方案!-AI.x社区

在现代深度学习模型中,归一化层几乎成了标配,大家普遍认为不可或缺。但我们的研究发现,其实不用归一化层也能让Transformer模型表现优异——只需要一个简单的小技巧就够了。我们提出的动态双曲正切函数(DyT),本质上就是通过调整参数α来控制tanh函数的形状(DyT(x)=tanh(αx)),这个方法能完美替代归一化层的功能。这灵感来自于Transformer中常用的层归一化,它其实和tanh函数的S型曲线很像。而通过引入DyT,即使去掉归一化层,Transformer在大多数任务上的表现也能和传统方法持平甚至更好。

我们在各种实验中验证了这一点,无论是图像识别还是文本生成,从有监督学习到自监督学习,这个方法都表现稳定。这似乎颠覆了我们对归一化层必须存在的传统认知,说明深度网络的训练机制可能还有更多未被发现的特性。有趣的是,这个简单方法甚至能帮助模型在某些场景下取得更好的效果,说明传统设计可能还存在优化空间。

论文: ​​https://arxiv.org/pdf/2503.10622​

2. Charting and Navigating Hugging Face's Model Atlas

Meta 重磅发布 DyT 函数:Transformer 无需归一化层,性能反超传统方案!-AI.x社区

现在网上公开的神经网络模型多如繁星,要在这么多模型里找合适的用起来可不太容易。想象一下,要是有一张导航地图该多好——但现实是大部分模型连说明书都懒得写,画地图就成了一件挺头疼的事。为了探索这些模型的潜力,我们先试着画了一张初步的地图,主要参考了Hugging Face平台上那些有详细说明的模型。这张地图不仅让人一眼看懂模型家族的分布和演化路径,还能直观感受技术发展的脉络。

我们试着用这个地图做了些有意思的事,比如预测模型的性能表现,分析视觉模型的发展趋势等等。不过现在这个地图还不够完整,特别是那些没写文档的'隐秘角落'。为此我们想了个办法:根据实际训练模型的经验总结出一些常见规律(比如大家训练模型时常用的结构设计),把这些规律作为参考依据,就能推测出那些没被记录的区域大概长啥样。

论文: ​​https://arxiv.org/pdf/2503.10​​633

3. World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

Meta 重磅发布 DyT 函数:Transformer 无需归一化层,性能反超传统方案!-AI.x社区

最近这些能同时处理图像和文字的大模型(比如Qwen2-VL、LLaVA这些)虽然在规划任务上有了新突破,但它们总在一些基本问题上卡壳——比如如何高效执行任务,或者在复杂约束下做出合理选择。仔细看现有的解决方案会发现,要么只顾着优化动作选择,要么依赖模拟环境预测,但都没把'理解环境'和'做决策'这两个关键点结合起来。

我们这次想了个新方法,叫双重偏好优化(D²PO)。简单来说,就是让模型一边学习'预测环境变化',一边优化'下一步该做什么',就像同时培养它的'预判能力'和'行动力'。为了训练这个模型,我们设计了一个智能搜索机制:让模型自己通过试错积累经验,自动收集训练数据,而且完全不用人工标注。这样既省时又省力。

在真实任务测试中(比如让模型完成需要多步骤的视觉任务),这个方法表现特别好。比如用在Qwen2-VL、LLaVA这些70亿参数的模型上时,任务成功率比之前的方法高很多,甚至超过了GPT-4o这样的大模型。更厉害的是,它找到的解决路径还更简洁高效,说明模型真的学会了'聪明规划'

论文: ​​https://arxiv.org/pdf/2503.10480​

4. CoRe^2: Collect, Reflect and Refine to Generate Better and Faster

Meta 重磅发布 DyT 函数:Transformer 无需归一化层,性能反超传统方案!-AI.x社区

现在文本生成图像(比如让AI画图)的技术发展很快,但一直有个两难问题:要么追求画质就得等很久,想快速出图又总觉得效果差点意思。更麻烦的是,之前的方法要么只对扩散模型(比如Stable Diffusion)有效,要么只能用在自回归模型(比如LlamaGen)上,很少有通用方案能同时兼顾速度和质量。

我们团队这次开发了一个叫CoRe²的'加速神器',它像搭积木一样分三步走:

收集:先让模型自由发挥,不加限制地生成图像轨迹

反思:用这些素材训练个'小助手',专门记住容易生成的部分,这样计算量直接砍半

精修:最后用'小助手'和原模型配合,重点强化那些原模型总画不好的细节(比如复杂纹理或真实感) 

实测发现这个方法特别实用!它在Stable Diffusion XL、LlamaGen等主流模型上都表现稳定,生成的图像在清晰度和创意度上都比之前的方法强。比如用Stable Diffusion 3.5时,不仅比Z-Sampling快了6秒,画作质量评分还分别高了0.3和0.16分。更厉害的是,它能无缝对接现有的加速方案,相当于给模型装了个'涡轮增压器'。

论文: ​​​https://arxiv.org/pdf/2503.09662​

本文转载自​​AI-PaperDaily​

收藏
回复
举报


回复
相关推荐