Meta 重磅发布 DyT 函数：Transformer 无需归一化层，性能反超传统方案！

发布于 2025-3-20 07:32

浏览

0收藏

1. Transformers without Normalization

Meta 重磅发布 DyT 函数：Transformer 无需归一化层，性能反超传统方案！-AI.x社区

在现代深度学习模型中，归一化层几乎成了标配，大家普遍认为不可或缺。但我们的研究发现，其实不用归一化层也能让Transformer模型表现优异——只需要一个简单的小技巧就够了。我们提出的动态双曲正切函数（DyT），本质上就是通过调整参数α来控制tanh函数的形状（DyT(x)=tanh(αx)），这个方法能完美替代归一化层的功能。这灵感来自于Transformer中常用的层归一化，它其实和tanh函数的S型曲线很像。而通过引入DyT，即使去掉归一化层，Transformer在大多数任务上的表现也能和传统方法持平甚至更好。

我们在各种实验中验证了这一点，无论是图像识别还是文本生成，从有监督学习到自监督学习，这个方法都表现稳定。这似乎颠覆了我们对归一化层必须存在的传统认知，说明深度网络的训练机制可能还有更多未被发现的特性。有趣的是，这个简单方法甚至能帮助模型在某些场景下取得更好的效果，说明传统设计可能还存在优化空间。

论文: https://arxiv.org/pdf/2503.10622

2. Charting and Navigating Hugging Face's Model Atlas

Meta 重磅发布 DyT 函数：Transformer 无需归一化层，性能反超传统方案！-AI.x社区

现在网上公开的神经网络模型多如繁星，要在这么多模型里找合适的用起来可不太容易。想象一下，要是有一张导航地图该多好——但现实是大部分模型连说明书都懒得写，画地图就成了一件挺头疼的事。为了探索这些模型的潜力，我们先试着画了一张初步的地图，主要参考了Hugging Face平台上那些有详细说明的模型。这张地图不仅让人一眼看懂模型家族的分布和演化路径，还能直观感受技术发展的脉络。

我们试着用这个地图做了些有意思的事，比如预测模型的性能表现，分析视觉模型的发展趋势等等。不过现在这个地图还不够完整，特别是那些没写文档的'隐秘角落'。为此我们想了个办法：根据实际训练模型的经验总结出一些常见规律（比如大家训练模型时常用的结构设计），把这些规律作为参考依据，就能推测出那些没被记录的区域大概长啥样。

论文: https://arxiv.org/pdf/2503.10633

3. World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

Meta 重磅发布 DyT 函数：Transformer 无需归一化层，性能反超传统方案！-AI.x社区

最近这些能同时处理图像和文字的大模型（比如Qwen2-VL、LLaVA这些）虽然在规划任务上有了新突破，但它们总在一些基本问题上卡壳——比如如何高效执行任务，或者在复杂约束下做出合理选择。仔细看现有的解决方案会发现，要么只顾着优化动作选择，要么依赖模拟环境预测，但都没把'理解环境'和'做决策'这两个关键点结合起来。

我们这次想了个新方法，叫双重偏好优化（D²PO）。简单来说，就是让模型一边学习'预测环境变化'，一边优化'下一步该做什么'，就像同时培养它的'预判能力'和'行动力'。为了训练这个模型，我们设计了一个智能搜索机制：让模型自己通过试错积累经验，自动收集训练数据，而且完全不用人工标注。这样既省时又省力。

在真实任务测试中（比如让模型完成需要多步骤的视觉任务），这个方法表现特别好。比如用在Qwen2-VL、LLaVA这些70亿参数的模型上时，任务成功率比之前的方法高很多，甚至超过了GPT-4o这样的大模型。更厉害的是，它找到的解决路径还更简洁高效，说明模型真的学会了'聪明规划'

论文: https://arxiv.org/pdf/2503.10480

4. CoRe^2: Collect, Reflect and Refine to Generate Better and Faster

Meta 重磅发布 DyT 函数：Transformer 无需归一化层，性能反超传统方案！-AI.x社区

现在文本生成图像（比如让AI画图）的技术发展很快，但一直有个两难问题：要么追求画质就得等很久，想快速出图又总觉得效果差点意思。更麻烦的是，之前的方法要么只对扩散模型（比如Stable Diffusion）有效，要么只能用在自回归模型（比如LlamaGen）上，很少有通用方案能同时兼顾速度和质量。

我们团队这次开发了一个叫CoRe²的'加速神器'，它像搭积木一样分三步走：

收集：先让模型自由发挥，不加限制地生成图像轨迹

反思：用这些素材训练个'小助手'，专门记住容易生成的部分，这样计算量直接砍半

精修：最后用'小助手'和原模型配合，重点强化那些原模型总画不好的细节（比如复杂纹理或真实感）

实测发现这个方法特别实用！它在Stable Diffusion XL、LlamaGen等主流模型上都表现稳定，生成的图像在清晰度和创意度上都比之前的方法强。比如用Stable Diffusion 3.5时，不仅比Z-Sampling快了6秒，画作质量评分还分别高了0.3和0.16分。更厉害的是，它能无缝对接现有的加速方案，相当于给模型装了个'涡轮增压器'。

论文: https://arxiv.org/pdf/2503.09662

本文转载自AI-PaperDaily

标签

DyT

函数

性能