鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

图像生成模型王牌——Diffusion Transformers系列工作梳理

发布于 2024-5-7 11:12

浏览

0收藏

图像生成模型是目前业内研究的焦点，而目前诸如Sora等前沿生成模型，其所基于的主体架构都是Diffusion Transformers（DiT）。Diffusion Transformers（DiT）是论文Scalable Diffusion Models with Transformers（ICCV 2023）中提出的，是扩散模型和Transformer的结合，也是Sora使用的底层生成模型架构，将Diffusion Transformers从图像生成扩展到了视频生成。这篇文章给大家总结了目前主要的几个DiT模型结构，带大家梳理DiT系列模型的核心。

更加完整的多模态生成模型技术总结，可以加入我的星球【圆圆的算法笔记】，获取Sora底层原理解析专栏。

1.DiT

在之前的图像生成扩散模型中，底层的网络结构一般都是U-Net。而本文基于Vision Transformer（ViT）中的Transformer图像分类模型结构，替代扩散模型中的U-Net，得到DiT模型，实现了更优的生成效果。

在输入部分，基本采用了和ViT相同的方法。对输入的图像分成多个patch，并转换成一个token序列，每个token拼接上相应的position embedding。这个底层的embedding序列作为后续DiT模块的输入。

图像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社区

在扩散模型中，Transformer除了像ViT那样输入图像patch token序列，往往还要输入一些额外的信息，包括扩散模型中当前的生成时间步、文本信息的输入等，如何将这些信息输入到DiT中，文中尝试了几种方案。最简单的方法是将这些额外的embedding直接拼接到原始的序列上。第二种是将外部的embedding单独拼接成一个序列，和原始的图像patch序列额外做一个cross attention。第三种方法是修改Transformer中的layer normalization模块，将其替换成adaptive layer normalization，LN的均值和方差由外部embedding的加和生成。第四种是在第三种的基础上，引入了基于外部embedding生成的缩放因子，对multi-head attention的输出进行缩放。

图像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社区

在经过多层的DiT模型后，需要将预测的噪声结果还原出来，这里使用一个MLP作为Decoder，将DiT生成的结果映射到噪声预测结果。

上述就是DiT的整体结构，主要还是Vision Transformer。用这个DiT结构，替代扩散模型中的去噪模块，也就是噪声预测网络，就是DiT模型

从实验对比中可以看出，DiT的生成效果是超过基于U-Net等之前的SOTA模型的。

图像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社区

图像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社区

2.U-ViT

U-ViT是另一个基于ViT的扩散模型网络。U-ViT也是将扩散模型中的噪声预测网络替换成Transformer结构，并且借鉴了U-Net等传统CV模型中的残差网络思路，每一层的输出都会通过龙skip connection加到更深层的网络中。此外，文中对一些模型结构也进行了尝试，包括残差网络怎么加，是直接拼接到深层+MLP还是add到生成；扩散步骤embedding怎么加入到U-ViT中；以及Transformer之后的卷积网络怎么加。

图像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社区

3.MDT

MDT发表于论文Masked diffusion transformer is a strong image synthesizer（ICCV 2023），在DiT的基础上，引入了mask latent modeling，进一步提升了DiT的收敛速度和生成效果。

文中分析发现，DiT在学习过程中，并不能很好的学习各个语义单元之间的关系。为了解决这个问题，MDT引入了一个重构任务，对输入的图像的部分patch进行mask，然后使用一个Transformer模型在生成过程中，对这部分被mask掉的patch进行还原。在扩散模型中，每一层MDT输入被mask掉一部分的token序列，只根据这部分序列进行噪声预测。同时，使用一个Transformer网络来还原被mask掉的部分。通过这种方式，让模型在学习过程中强行学习patch之间的关系。同时通过position embedding的引入提升对mask token的还原能力。

由于在生成阶段，decoder在处理token的时候都是没有mask的，训练的时候是mask的，这种不一致会影响效果。因此文中采用side-interpolater，对被mask掉的部分使用side-interpolater的预测结果，融合上没被mask的结果，保证训练和预测阶段decoder的输入都是没有mask掉的。

图像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社区

4.Diffit

Diffit是英伟达发表于论文Diffit: Diffusion vision transformers for image generation（2023）中的一种方法，也是Diffusion Transformer的一个变体，在模型结构上进行了改进。整体的结构类似于U-Net和Transformer的结合，通过增加downsample和upsample实现层次性的建模。

图像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社区

Diffit在引入扩散步骤embedding的时候，采用了一种Time-dependent Self-Attention的方式，即将步骤embedding直接加入到输入token序列上，让self-attention在计算的过程中就考虑到扩散步骤的信息。在模型结构上，采用U-Shape的形式，Encoder部分每一层Transformer后做downsample，来提取不同分辨率下的图像信息，Decoder部分再逐渐upsample。

图像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社区

本文转载自圆圆的算法笔记，作者： Fareise

标签

赞

收藏

回复

举报

回复

相关推荐

图像生成里程碑！VAR:自回归模型首超Diffusion Transformer！（北大&字节）

angel • 1.0w浏览 • 0回复
如何正确使用Stable Diffusion？文本到图像扩散模型中记忆化实用分析（浙大）

angel • 2797浏览 • 0回复
深度学习中生成模型的工作原理：解析用于数据增强的生成模型

51CTO内容精选 • 2893浏览 • 0回复
MUMU：用文本、图像引导，多模态图像生成模型

Aceryt • 1936浏览 • 0回复
Stable Diffusion这样的文本-图像生成模型有记忆吗？

angel • 1704浏览 • 0回复
一文梳理Transformer在时间序列预测中的发展历程代表工作

海因斯DK • 5882浏览 • 0回复
大模型之视频图像生成之工作流——ComfyUI和AI炼丹师

AI探索时代 • 3395浏览 • 0回复
【大模型】图解Transformers Encoder

鱼虫子 • 1934浏览 • 0回复
【大模型】图解Transformers Decoder

鱼虫子 • 2165浏览 • 0回复
《解读论文：Scaling Laws For Diffusion Transformers》

智能交互引擎 • 1702浏览 • 0回复
一文梳理大语言模型编程框架

AIGC最前线 • 1713浏览 • 0回复
大模型图像处理技术之扩散模型——Diffusion Model

AI探索时代 • 2165浏览 • 0回复
如何使用BART模型和Hugging Face Transformers总结文本？

51CTO内容精选 • 2000浏览 • 0回复
生成式模型实现的区别——VAE、GAN、Diffusion和transformer

AI探索时代 • 2340浏览 • 0回复
DeepSeek R1 全系列模型部署指南

芝士AI吃鱼 • 5254浏览 • 0回复
大模型系列：一文带你梳理Large Language Model发展历程

海因斯DK • 1218浏览 • 0回复
Dify从入门到高阶系列一：详解各种工作流节点，如何降低LLM开发门槛？

AI博物院 • 1003浏览 • 0回复
你了解大模型的生态体系吗？大模型从技术到应用的内容梳理

AI探索时代 • 569浏览 • 0回复
大模型系列：一文汇总16个深度语言模型代表工作

海因斯DK • 516浏览 • 0回复

LV.2

分享你知道的、我不知道的、你不知道、我知道的

觉得TA不错？点个关注精彩不错过

16

帖子

193

声望

0

粉丝

关注

最近发布

大模型系列：一文汇总16个深度语言模型代表工作 3天前发布
时序Pattern提取+语义对齐增强基于LLM的时序预测效果 2025-03-26 00:52:59发布

热门推荐

暴论：2025年，程序员必学技能就是 MCP 1回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

MCP协议之MCP-server(sse方式)实践 0回复

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

上一篇：动态可扩展的时间序列Patch划分方法

下一篇： TFB：2024最新时间序列预测Benchmark

社区精华内容

目录

1.DiT
2.U-ViT
3.MDT
4.Diffit

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载