鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

苹果开源高清扩散模型MDM，能在多个分辨率下同时去噪

发布于 2024-10-8 10:15

浏览

0收藏

扩散模型已经成为文本生成图像、视频的主要框架之一，其基本原理是通过逐步引入噪声并在反向过程中去除噪声来生成数据。但在生成2K、4K高分辨率时，面临巨大的算力需求和时间消耗。

为了解决这一难题，苹果的研究人员开源了高清扩散模型Matryoshka Diffusion Models（简称“MDM”），通过引入一种特殊的扩散过程可在多个分辨率下同时进行去噪，并使用NestedUNet架构，将小尺度输入的特征和参数嵌套在大尺度的结构中，允许模型在不同分辨率间共享信息，从而提高训练效率和生成质量。

开源地址：https://github.com/apple/ml-mdm?tab=readme-ov-file

苹果开源高清扩散模型MDM，能在多个分辨率下同时去噪-AI.x社区

传统的扩散模型通常在单一分辨率下进行去噪操作，而MDM引入了多分辨率扩散过程，将不同分辨率的潜在变量联合起来进行处理。

例如，当生成一张图像时，MDM不仅考虑最终的高分辨率输出，还同时关注中间的低分辨率信息。这就好比在制作一幅精美的刺绣作品时，不仅要关注整体的图案设计，还要注重每一针每一线的细节，而低分辨率信息就像是刺绣中的底层线条，为高分辨率的呈现提供了基础。

在这个扩展空间中，MDM为数据点定义了时间相关的潜在变量，包含了多个不同分辨率的潜在变量。每个都有其特定的分布，并且与其他分辨率的潜在变量相互关联。

这种多分辨率的联合处理使得模型能够更好地捕捉数据的内在结构和特征，丰富了模型对数据分布的建模能力。由于在推理过程中关注了多个分辨率的信息，MDM可以将中间分辨率视为额外的隐藏变量，这些隐藏变量有助于模型更好地理解和生成高分辨率的输出

苹果开源高清扩散模型MDM，能在多个分辨率下同时去噪-AI.x社区

MDM使用的NestedUNet架构类似于传统的UNet架构，但在处理多分辨率输入时有一些区别。传统的UNet架构通过跳过连接和计算块来保留细粒度输入信息，而NestedUNet架构在此基础上，进一步将所有分辨率的潜在变量分组在一个去噪函数中形成嵌套结构。

苹果开源高清扩散模型MDM，能在多个分辨率下同时去噪-AI.x社区

这种嵌套结构使得低分辨率潜在变量的计算能够自然地为高分辨率潜在变量的计算提供有益的信息，就像套娃游戏一样，小的套娃嵌套在大的套娃中，彼此相互关联共同构成一个完整的整体。

苹果开源高清扩散模型MDM，能在多个分辨率下同时去噪-AI.x社区

在图像生成任务中，当模型处理不同分辨率的图像时，NestedUNet架构能够有效地整合这些信息。低分辨率的图像特征会被逐渐传递到高分辨率的部分，为高分辨率图像的生成提供重要的线索和指导。

例如，我们想生成一幅“海滩日落”的高分辨率图像。在MDM生成过程中会从一幅低分辨率的草图开始。这幅草图捕捉了海滩日落的基本元素，如天空、海面和太阳的大致轮廓。

随后，模型会在这一草图的基础上逐步增加细节，比如太阳的光辉、海浪的波纹和沙滩上的纹理。在每一级分辨率的提升过程中，模型都会利用NestedUNet架构中的特征共享机制，确保生成的图像在细节上的连贯性和一致性。

苹果开源高清扩散模型MDM，能在多个分辨率下同时去噪-AI.x社区

渐进式多阶段训练是MDM的另外一大优势。在传统的训练方法中，模型往往需要一次性处理所有分辨率的数据，这在高分辨率情况下会导致巨大的计算负担。

MDM则通过渐进式训练，先从低分辨率开始训练，逐步增加分辨率，直至达到所需的高分辨率输出。

苹果开源高清扩散模型MDM，能在多个分辨率下同时去噪-AI.x社区

这种方法不仅减轻了训练初期的计算压力，还有助于模型更好地学习到不同分辨率之间的关联和转换规则。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/Gt2ihbtIhFEtzo8qAmv33g

标签

赞

收藏

回复

举报

回复

相关推荐

无需训练，这个新方法实现了生成图像尺寸、分辨率自由

轻薄滴假象 • 2836浏览 • 0回复
超10秒高分辨率，北大Open Sora视频生成更强了，还支持华为芯片

轻薄滴假象 • 2873浏览 • 0回复
8倍于SOTA模型发布，超分辨率细节还原度逆天，终于可以看清楚蜘蛛网丝了！

51CTO技术栈 • 4122浏览 • 0回复
高分辨率图像生成扩散外推方法CutDiffusion发布！

angel • 4553浏览 • 0回复
Adobe推出超分辨率，细节丰富视频模型VideoGigaGAN

Aceryt • 2820浏览 • 0回复
4K4D:实时4K分辨率4D视图合成

angel • 2968浏览 • 0回复
IPAdapter+再进化，可同时学习多个任务！Unity开源新思路：图像条件结合指令提示

angel • 2330浏览 • 0回复
华科、华南理工发布Mini-Monkey，专治「切分增大分辨率」后遗症

duhorse • 2336浏览 • 0回复
上海交大等联合发布MegaFusion：无须微调的高效高分辨率图像生成方法

angel • 2993浏览 • 0回复
IPAdapter+再进化，可同时学习多个任务！Unity开源新思路：图像条件结合指令提示

angel • 2387浏览 • 0回复
苹果重磅开源俄罗斯套娃扩散模型！MDM：多任务高分辨率生成又快又好！

angel • 2420浏览 • 0回复
去噪步数减少50%，图像生成质量反而更好！西湖大学等提出TPDM：自适应噪声调度

angel • 2594浏览 • 0回复
吴恩达开源AISuite，简单高效调用多个大模型

小虎哦哦 • 3655浏览 • 0回复
FreeScale让扩散模型解锁更高分辨率！

angel • 2536浏览 • 0回复
从低清到4K的魔法：FlashVideo突破高分辨率视频生成计算瓶颈(港大&港中文&字节)

angel • 2228浏览 • 0回复
高分辨率3D人生成超简单!Pippo:Meta最新工作首次完成1K分辨率一致多视角人物图像生成

angel • 2806浏览 • 0回复
计算效率提高4000倍，首次实现高分辨率逐像素生成

Crystalcxt • 1952浏览 • 0回复
图像处理和降噪（包括VisuShrink阈值、均值、中值和NL均值滤波以及加权平均融合进行小波去噪，Python）

步惊云_32 • 3326浏览 • 0回复
通向高分辨率VLM (11): VILA-HD

kede96 • 1221浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

刚刚，OpenAI发布GPT-image-1模型，更强吉卜力版本来啦 2025-04-24 09:57:36发布
字节跳动开源多模态AI Agent—UI-TARS-1.5 2025-04-23 11:55:00发布

热门推荐

从原理到调参，小白也能读懂的大模型微调LoRA，不懂线性代数也没问题 0回复

从播客到带娃，看老黄、纳德拉、奥特曼这些CEO 如何在生活中使用 AI 0回复

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！ 1回复

AI Agents开源工具栈全解析~ 0回复

我把DeepSeek微调参数扒光了，显存和性能优化的秘密都在这 0回复

上一篇： Meta开源多模态模型——Llama 3.2

下一篇：超越Sora！全球首个带背景音乐，文生1080超高清视频模型

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载