判别模型与生成模型长期以来彼此独立,前者专注于分类和识别,后者用于数据生成。
最近一项名为「直接上升合成」(Direct Ascent Synthesis,DAS)的独立研究,颠覆了这一传统观念,揭示出判别模型中隐藏着令人惊叹的生成能力。
论文链接:https://arxiv.org/abs/2502.07753
DAS的核心观点挑战了人们对判别模型和生成模型的传统认知。
研究人员发现,判别模型并非只能用于判别任务,其内部实际上蕴含着丰富的生成知识。通过合适的优化技术,判别模型可以突破传统角色,成为强大的图像合成工具。
以CLIP模型为例,它能够将图像映射到嵌入向量,这些嵌入向量不仅包含了图像的语义信息,还捕捉到了自然图像的结构特征。
然而,传统的反向映射尝试,即将嵌入向量转换回图像时,往往会遇到问题。以往的方法通常会产生退化的结果,生成的图像在数学上与目标嵌入向量匹配度很高,但在人类观察者眼中却像是毫无意义的噪声。
这种现象在对抗样本的研究中尤为明显,也揭示了表示匹配与感知质量之间的矛盾。
DAS的研究者们却从中获得了灵感,他们认为这种看似的限制实际上是一个机会。
在可能的反向映射空间中,既存在自然图像,也存在对抗模式。通过精心设计的优化方法,就有可能引导模型生成自然且有意义的图像,从而挖掘出判别模型中隐藏的生成能力。
关键创新:多分辨率优化
DAS的关键创新在于多分辨率优化。它打破了传统优化直接在像素层面操作的局限,将图像分解为多个不同分辨率的组件进行同时优化:
其中,表示分辨率为r的图像组件,图像被表示为从1×1到224×224分辨率的一系列组件之和。
从正则化角度来看,多分辨率分解提供了一种自然的正则化方式。它通过强制不同分辨率之间的一致性,避免了优化过程中出现退化的高频解决方案,而这些高频噪声往往是传统对抗优化产生无意义图像的原因。
同时,不同分辨率的组件能够在合适的尺度上捕捉语义信息,比如低分辨率组件可以把握图像的整体结构,高分辨率组件则专注于细节,从而使生成的图像在语义上更加连贯。
在优化目标的设定上,DAS通过衡量生成图像与目标描述(如文本描述对应的嵌入向量)的CLIP嵌入相似度来进行优化:
其中,i对多个CLIP模型进行索引,j对增强操作进行索引。
公式具有几个关键特性:1)所有分辨率的组件同时进行优化;2)梯度根据各尺度的重要性自然地分布;3)通过尺度分解抑制高频对抗模式。
梯度会根据不同分辨率组件的重要性自然地分布,进一步促进了生成过程朝着符合自然图像统计结构的方向发展。
最终生成图像的功率谱遵循1/f²分布,这正是自然图像的典型特征,证明了多分辨率优化生成图像的有效性。
DAS实现细节
研究者采用了几种技术来确保稳定且高质量的生成:
数据增强
研究发现,随机的x-y位移和像素噪声这两种简单的数据增强方式,与多分辨率先验协同工作,能够显著提升生成的稳定性和图像质量。
单独使用其中任何一种增强方式效果都有限,但两者结合,就能为模型在优化过程中提供更多的变化和稳定性,使得生成的图像更加多样化且自然。
更复杂的数据增强方式可能会进一步提高生成质量,这为后续研究留下了探索空间。
位移处理
在处理图像位移时,DAS采用了一种独特的策略。与传统的填充方法不同,它在生成图像时,会将图像尺寸扩大为(H+2s)×(W+2s),其中s是最大位移量。
这样在进行位移增强时,图像就有了足够的缓冲空间,避免了因位移导致的边界问题。最后,再将生成的图像中心裁剪为所需的H×W尺寸,确保图像的完整性和一致性。
模型集成
为了进一步提高生成质量,DAS采用了模型集成的方法。它平均了三个CLIP模型(OpenAI ViT-B/32 和两个 OpenCLIP ViT-B/32 变体,分别在不同数据集上训练)的梯度。
虽然单个模型也能实现图像生成,但通过模型集成,能够在一定程度上提升生成图像的质量和稳定性。
不过,研究人员也发现,部分CLIP模型在转换为生成器时表现不佳,目前还没有明确的原因,有待后续研究。
框架扩展
DAS的框架具有很强的扩展性,在多目标向量方面,生成过程可以由多个加权目标引导,通过不同提示的组合,实现对生成图像的精细控制。
在风格迁移和重建任务中,目标嵌入可以来自文本,也可以来自参考图像。
基于CLIP模型强大的表示能力,即使经过大幅度的维度压缩,DAS仍然能够在重建过程中保留图像的语义内容和风格元素。
实验结果与分析
研究人员对DAS进行了全面的实验,从多个角度验证了其性能和优势。
实验聚焦在四个关键方面:生成一致性、可控修改、重建保真度以及在不同应用中的通用性。
研究者采用3个CLIP模型进行集成:OpenAI ViT-B/32、两个OpenCLIP ViT-B/32变体。上述模型均基于ViT架构,但也验证了非ViT模型同样可以取得类似的生成效果。
生成质量与一致性
在生成质量和一致性实验中,研究人员选择了两个具有挑战性的提示:火山爆发和冬夜的剑桥。
多次运行DAS生成图像的结果显示,它在生成过程中表现出了高度的可靠性。
在语义一致性方面,每次生成的图像都能保持一致的高级特征,比如火山场景中的火山灰柱结构和景观融合,剑桥场景中的建筑主题和冬夜氛围都非常稳定。
在构图理解上,生成的图像展现出了复杂而合理的构图,即使没有经过专门的构图训练,也能自然地平衡前景和背景,体现出对场景结构的理解。
此外,不同运行结果之间的差异呈现出自然图像的特征,如光照变化、视角微调等,而非对抗模式,这表明多分辨率先验成功地将优化过程限制在了自然图像流形内。
可控修改
在可控修改实验中,研究人员以一张原始图像为基础,根据不同的文本提示对图像进行修改。
结果表明,DAS能够实现精确的局部调整和全局场景转换。
在结构保存方面,图像的核心几何结构和空间关系在修改过程中得以保留,比如道路场景中,道路的基本形状和位置不会因为修改提示而被破坏。
语义控制上,图像的修改能够准确响应文本提示,并且保持物理上的合理性,像下雪的道路场景中,雪会自然地堆积在路面上。
在多尺度协调方面,新添加的元素能够在不同空间尺度上无缝融合,火山爆发场景中,不仅有大规模的地形变化,还有局部的大气效果,两者协调一致。
嵌入引导的重建
从CLIP嵌入中重建图像是对DAS的一项严格测试,因为这需要从高度压缩的表示(从150,528维压缩到512维)中恢复高维图像结构。
实验结果令人惊喜,DAS 能够恢复出大量的语义和风格信息。
在语义保留上,主要的场景元素及其关系被一致地恢复出来。风格保留方面,颜色方案、光照条件和艺术特质都能有效地转移。
构图保真度上,整体的布局和空间组织保持完整。同时,在细节上还能呈现出自然的变化,使得重建图像既保留了原始图像的主要特征,又具有一定的多样性。
专业应用
在生成国旗的任务中,DAS能够处理精确的几何图案和象征元素,虽然生成的国旗并不完美,但已经能够清晰地识别出各个国家的国旗特征,像瑞士国旗的精确比例和巴西国旗复杂的星星图案都能得到较好的呈现。
在图像修复任务中,DAS可以根据给定的提示(如「夜晚的城市天际线」)生成与现有图像上下文无缝融合的内容,展示出其在处理边界条件和结构连续性方面的优势。
这表明,DAS能够在多种复杂任务中发挥作用,且不需要针对特定任务进行专门的训练或架构修改。
风格迁移
在风格迁移方面,DAS 同样表现出色。通过将起始图像向风格图像的嵌入方向优化,DAS能有效地实现风格迁移。
与传统的基于像素空间优化的风格迁移方法相比,DAS生成的结果更加自然,高频伪影更少,而且所需的优化步骤也更少。
这使得DAS成为了传统风格迁移技术的有力替代方案,为用户带来更加流畅和高质量的风格迁移体验。