首次实现8K图像生成!FreeScale让扩散模型解锁更高分辨率! 精华
文章链接:https://arxiv.org/pdf/2412.09626
项目链接:http://haonanqiu.com/projects/FreeScale.html
亮点直击
- 提出了FreeScale,一种无需微调的推理范式,通过融合不同尺度的信息,使预训练的扩散模型能够生成生动的高分辨率结果。
- 在文本生成图像模型和文本生成视频模型上对该方法进行了实证评估,证明了其有效性。
- 首次实现了8K分辨率图像的生成。与其他最新的无需微调方法相比,FreeScale 以更少的推理时间获得了更高质量的视觉效果。
总结速览
解决的问题
当前的视觉扩散模型由于高分辨率数据缺乏和计算资源限制,仅能在有限分辨率下训练,难以生成高保真图像或视频。在生成高于训练分辨率的内容时,模型容易引入高频信息,导致重复模式和低质量内容。
提出的方案
FreeScale 是一种无需微调(tuning-free)的推理范式,通过尺度融合(scale fusion)实现高分辨率视觉内容生成。它通过处理不同感受野尺度的信息,并提取所需的频率成分进行融合,从而克服高频信息引发的重复模式问题。
应用的技术
- 多尺度信息处理:对不同感受的尺度信息进行提取和处理。
- 频率成分提取与融合:提取并融合目标频率成分,优化高分辨率生成质量。
达到的效果
- 在图像和视频生成任务中显著扩展了高分辨率生成的能力。
- 首次实现了8K分辨率图像的生成,相较于现有最优方法表现更优。
- 通过无调参方式解决了高分辨率生成中的重复模式问题,提升了生成内容的质量与保真度。
8K效果
方法
定制化的自级联超分辨率
直接生成高分辨率结果容易导致重复对象的出现,破坏原本良好的视觉结构。为了解决这一问题,采用了来自先前研究[13, 14]的自级联超分辨率框架,该框架通过逐步增加生成结果的分辨率来实现高质量的视觉输出。
细节级别的灵活控制
受约束的膨胀卷积
ScaleCrafter 发现,导致对象重复问题的主要原因是卷积感受野的限制,并提出使用膨胀卷积来解决该问题。
为了避免灾难性的质量下降,ScaleCrafter仅将膨胀卷积应用于 UNet 的部分层,仍保留了多个上采样块(up-blocks)。然而,在上采样块的层中使用膨胀卷积会导致生成许多混乱的纹理。因此,与以往的工作不同,仅在下采样块(down-blocks)和中间块(mid-blocks)的层中应用膨胀卷积。此外,在最后几个时间步中,结果的细节被渲染,而视觉结构几乎固定。因此,在最后几个时间步中使用原始卷积。
尺度融合
虽然定制化的自级联超分辨率和受约束的膨胀卷积能够保持粗略的视觉结构,并有效生成4X分辨率的图像,但生成16X分辨率的图像仍会出现伪影,例如局部重复(如额外的眼睛或鼻子)。这一问题的根源在于膨胀卷积削弱了对局部特征的关注。DemoFusion通过使用局部块操作增强局部关注解决了这个问题。然而,尽管局部块操作缓解了局部重复问题,却在全局范围内引入了小对象的重复。
为结合两种策略的优势,本文设计了尺度融合(Scale Fusion),通过融合不同感受野尺度的信息,实现局部和全局细节的平衡增强。
对于全局信息的提取,采用了全局自注意力特征。原因在于,自注意力层基于相似性增强了块信息,使后续的交叉注意力层更容易将语义聚合成完整的对象。这可以表述为:
关于局部信息的提取
实验
实验设置
实验条件
在 LAION-5B 数据集中随机抽取 1024 条描述语句来评估图像生成性能。为了更贴近人类的审美偏好,我们从 LAION-Aesthetics-V2-6.5plus 数据集中随机选择提示语进行图像生成评估。LAION-Aesthetics-V2-6.5plus 是 LAION-5B 的一个子集,包含高视觉质量的图像,这些图像在美学预测模型中的评分达到 6.5 或更高。
在视频生成评估中,从 WebVid-10M 数据集中随机抽取 512 条描述语句。
评价指标
由于高分辨率推理方法旨在保持原始分辨率输出的质量,我们计算了原始低分辨率图像/视频与对应高分辨率输出之间的所有指标。
- 图像质量评估:我们报告了 **Frechet Image Distance (FID)**和 **Kernel Image Distance (KID)**。FID 和 KID 在比较之前需要将图像调整到299x299的尺寸,这一操作可能会导致高分辨率图像的质量损失。因此,受前人研究 [8] 启发,我们使用裁剪的局部区域计算这些指标,称为FIDc和KIDc。
- 视频质量评估:我们使用Frechet Video Distance (FVD)来评估视频生成的质量。
- 动态性和美学质量:从VBench中测试了动态程度和美学质量,用以评估视频的动态性和视觉吸引力。
高分辨率图像生成
将 FreeScale 与其他高分辨率图像生成方法进行了对比,包括:
- SDXL直接推理 (SDXL-DI)
- ScaleCrafter
- DemoFusion
- FouriScale
若兼容,采用 FreeU 作为后处理方法。
定性比较
定性比较结果如下图 3 所示。观察到以下现象:
- 直接生成(SDXL-DI)通常会导致多个重复对象,并且原始视觉结构丢失。
- ScaleCrafter容易产生局部重复现象。
- DemoFusion生成的画面中常伴有孤立的小物体。
- FouriScale对于某些描述,会大幅改变生成图像的风格。
相比之下,FreeScale 能够生成高质量图像,避免任何意外的重复现象。
定量比较
定量结果进一步证实了 FreeScale 的优越性。如下表 1 所示:
- SDXL-DI在FIDc和KIDc指标上表现最佳。这是因为 SDXL-DI 倾向于生成多个重复对象,并且裁剪区域可能更接近参考图像。然而,这种行为会牺牲视觉结构的完整性,因此在分辨率为 的场景下,SDXL-DI 在FID和KID指标上表现最差。
- 总体上,FreeScale在所有与质量相关的指标上都取得了最佳或次优成绩,并且额外的时间成本可以忽略不计。
灵活细节控制
此外,FreeScale 提供了对生成结果中细节级别的灵活控制。下图 4 展示了对不同语义区域调整细节级别的示例。
在获得放大后的 1× 结果后,我们可以轻松计算语义mask,并在公式 4 中为每个区域分配不同的 值。如下图 4 所示,在 Griffons 区域增加权重系数,而在其他区域降低权重系数时,生成结果会更加优异。
高分辨率视频生成
将 FreeScale 与其他无需调优的高分辨率视频生成方法进行了对比,包括:
- VideoCrafter2直接推理 (VC2-DI)
- ScaleCrafter
- DemoFusion
由于 FouriScale 结合的 FreeU 在视频生成中表现不佳,因此未进行评估。
如下图 5 所示,VC2-DI 和 ScaleCrafter 的行为与它们在图像生成中的表现相似,分别倾向于生成重复的完整对象和局部部分。然而,DemoFusion 在视频生成中表现完全不可预期。其 Dilated Sampling 机制导致所有帧中出现奇怪的图案,而 Skip Residual 操作则使整个视频模糊不清。相比之下,FreeScale 能有效生成高分辨率的视频,且保真度高。下表 3 显示,我们的方法在推理时间较短的情况下取得了最佳的 FVD 分数。更多定量评估可以参考补充材料。
消融实验
FreeScale 主要由三个组件组成:
- 定制自级联上采样
- 限制性膨胀卷积
- 尺度融合
结论
FreeScale,一种无需调优的推理范式,旨在增强预训练扩散模型在高分辨率生成中的能力。通过利用多尺度融合和选择性频率提取,FreeScale 有效解决了高分辨率生成中常见的问题,如重复模式和质量退化。实验结果表明,FreeScale 在图像和视频生成中都表现出色,超越了现有方法的视觉质量,同时在推理时间上也具有显著优势。与以前的方法相比,FreeScale 不仅消除了各种形式的视觉重复,而且确保了生成图像中的细节清晰和结构一致性。最终,FreeScale 实现了前所未有的8k 分辨率图像生成。
本文转自AI生成未来 ,作者:AI生成未来