迈向统一扩散框架!Adobe提出RGB↔X:双重利好下游编辑任务 | SIGGRAPH'24
文章链接:https://arxiv.org/pdf/2405.00666
最近的研究表明,现实前向渲染、逐像素反向渲染和生成图像合成这三个领域可能看起来是独立且不相关的图形和视觉子领域。然而,最近的工作已经证明了基于扩散架构的对每个像素的固有通道(反照率、粗糙度、金属度)的估计的改进;将其称为RGB→X问题。
进一步表明,基于固有通道合成真实图像的反向问题,X→RGB,也可以在扩散框架中解决。在室内场景的图像领域,引入了一个改进的RGB→X扩散模型,该模型还估计了光照,以及能够从(完整或部分)固有通道合成真实图像的第一个扩散X→RGB模型。
X→RGB模型探索了传统渲染和生成模型之间的一种折衷方案:可以指定只应遵循某些外观属性,并且允许模型自由地虚构其余部分的合理版本。这种灵活性允许使用混合的异构训练数据集,这些数据集在可用通道方面有所不同。使用多个现有数据集并通过合成和真实数据进行扩展,得到一个比以前的工作更好地提取场景属性并生成室内场景高度逼真图像的模型。
介绍
从图像中估计几何、着色和光照信息是计算机视觉社区长期以来一直在研究的问题,自从经典的固有图像分解工作开始。由于其受限性质,包括照明和材料之间的歧义性,这个问题本质上是困难的。最近的工作集中在与逐像素反向渲染相关的问题上。这产生了物理材料和光照估计,具体包括漫反射反照率、镜面粗糙度和金属度,以及各种空间变化的光照表示。将所有这些信息缓冲区称为固有通道,并用符号X表示,将估计它们的问题称为RGB→X。
另一方面,计算机图形学,尤其是基于物理的渲染子领域,长期以来一直专注于将详细的场景描述(包括几何、光照和材料)转化为逼真图像的反向任务。最先进的渲染方法采用蒙特卡洛光传输模拟,通常跟随着一个神经去噪器,该去噪器封装了关于合理无噪图像的先验知识。将从给定描述合成图像的问题称为X→RGB。
最近一种产生高度逼真图像的方法,与传统渲染非常不同,是基于生成模型的图像合成,特别是基于大型扩散模型的合成。这些模型通过迭代去噪图像运行,通过从纯噪声开始将神经去噪器方法推向极限。
这三个领域看似毫不相关,但我们认为它们应该以统一的方式进行研究。探索扩散模型、渲染和固有通道估计之间的联系,重点放在材料/光估计和以材料/光为条件的图像合成,全部在同一扩散框架中。最近的工作已经表明,基于扩散架构可以改进固有通道的估计。
Kocsis等人观察到,在这个领域进一步取得进展可能会使用生成建模,因为问题的受限性和歧义性。本文进一步遵循这个方向。除了一个改进了Kocsis等人的RGB→X模型之外,还引入了第一个X→RGB扩散模型,该模型可以从(完整或部分)固有通道合成逼真图像。与RGB→X类似,X→RGB问题需要一个强大的(理想情况下是生成的)先验来引导合成朝着一个合理的图像,即使在信息不完整或过于简单的固有通道信息X的情况下也是如此。典型的生成模型易于使用,但难以精确控制。另一方面,传统的渲染精确但需要完整的场景规范,这是有限的。我们的X→RGB模型探索了一个折衷方案,我们只指定应该遵循的某些外观属性,并允许模型虚构其余部分的合理版本。
固有通道X包含每个像素的反照率、法向量、粗糙度,以及表示为场景表面上每个像素的辐照度的光照信息。此外,X→RGB模型是使用通道丢弃训练的,这使得它能够使用任何子通道合成图像作为输入。这反过来又使得可以使用具有不同可用通道的混合异构训练数据集成为可能。使用多个现有数据集,并添加自己的合成和真实数据——这是一个关键的优势,使能够将训练数据扩展到超出以前模型的范围。本文提出以下贡献:
- 通过使用来自多个异构数据集的更多训练数据并增加对光照估计的支持,改进了之前的RGB→X模型;
- 能够从给定的固有通道X合成逼真图像的X→RGB模型,支持部分信息和可选文本提示。结合现有数据集并添加一个新的、高质量的室内场景数据集,以实现高逼真度。
总之,本文提出了一个统一的基于扩散的框架,可以实现逼真的图像分析(描述几何、材料和光照信息的固有通道估计)和合成(给定固有通道的逼真渲染),在逼真室内场景图像领域得到了证明;请参见下图1。我们的工作是统一的图像分解和合成框架的第一步。相信它可以为各种下游编辑任务带来好处,包括材料编辑、重新照明和从简单/不明确的场景定义中实现逼真渲染。
相关工作
图像的生成模型。 在过去的十年中,基于深度学习的图像生成迅速发展,尤其是生成对抗网络(GANs)的出现以及随后的一系列研究,改进了生成图像的质量和稳定性。然而,GANs的对抗式方法容易陷入模式崩溃,使它们难以训练。最近,扩散模型已被证明可以扩展到数亿张图像的训练集,并产生极高质量的图像。然而,这样的模型训练成本高昂,促使研究对预先训练的模型进行微调,以用于各种领域或条件,而不是从头开始训练。利用了这一领域的最新进展,在Stable Diffusion v2.1的基础上设计了我们的网络架构,添加了条件和丢弃作为测试时灵活输入的手段。
固有分解。固有图像分解问题由Barrow等人几乎五十年前定义,作为近似图像𝐼的一种方式,将其视为漫反射反照率(反照率)、漫反射阴影(辐照度)和可选的镜面项的组合。需要先验来估计每个像素的多个值。早期的先验包括视觉整理理论,该理论指出阴影倾向于比反射变化缓慢。Grosse等人总结了2009年之前的方法,而Garces等人总结了更近期的方法。将我们的反照率估计与Careaga和Aksoy的最新方法进行了比较。
一些最近的工作将传统的固有分解扩展到每个像素估计更多的值,包括镜面粗糙度和/或金属度,以及光照表示。他们的训练数据集侧重于室内场景。Li等人是第一个使用大型合成数据集对RGB渲染和分解进行训练的卷积架构的固有通道估计。用于训练这种方法的合成数据集后来得到了改进,并作为OpenRooms发布。通过从卷积架构转换到视觉Transformer架构,进一步取得了改进。更近期,Zhu等人引入了一个新的、更逼真的室内合成数据集,并训练了一个卷积架构,优于Li等人的方法,主要是由于更逼真的数据集。
一个更近期的替代方法是从预训练模型(如StyleGAN或预训练扩散模型)中提取固有图像。在这个精神上,固有图像扩散建议将通用扩散模型微调到每个像素的反向渲染问题上,通过利用为图像生成学习的先验知识,而不是在每个像素上预测可行解的平均值,超越了以前的方法。他们的模型是在InteriorVerse上训练的,这是一个室内渲染的合成数据集。通过在更多数据源上使用不同的架构训练类似的RGB→X模型,并进一步将其与新的X→RGB模型耦合,从这些缓冲区合成逼真图像,有效地将其回到RGB。
法向量估计。每个像素的法向量估计与固有分解相关,因为它为每个像素估计了3D信息,这与着色高度相关。然而,与深度估计相比,这个问题通常是孤立研究的,并且最近受到的关注有限。
为了展示我们方法的竞争力,考虑了一种内部方法,即基于金字塔视觉Transformer的PVT-normal方法,并在类似于MiDaS的数据集上进行了训练以估计法向量。在测试中,PVT-normal的性能优于当前可用的最先进的法向量估计方法。该模型不专门针对室内场景,而是在多样化数据集上训练的。
从分解中进行神经图像合成。 一些先前的工作探索了与X→RGB问题类似的问题。Deep Shading通过在合成数据上学习的CNN架构解决了学习屏幕空间着色效果的问题(例如,环境遮挡、基于图像的照明、表面散射),从而实现了快速渲染,竞争力或优于手工调整的屏幕空间着色器。Deep Illumination是一种基于每个场景条件GAN的方法,能够有效地根据屏幕空间固有缓冲区预测全局照明,而直接照明则是通过解析计算的。Zhu等人介绍了一种屏幕空间光线追踪方法,用于从固有通道合成图像。与之相反,我们的方法同时考虑了图像分解和合成,不需要任何光线追踪,并且其模型在室内场景领域通用。
重新照明。已经提出了使用显式和隐式表示的单图像场景重新照明方法。这些工作仅限于简单的照明:单一方向光源或低阶球谐函数。与我们的工作更接近的是,Li等人构建了一种逐像素逆渲染方法,用于从单个图像中重新照明室内场景。此外,他们引入了一种混合神经和经典渲染系统,根据固有通道和光照信息合成重新照明的图像,类似于我们的X→RGB。虽然我们认为我们的框架可以成为重新照明的工具箱的一部分,但我们并没有专门解决重新照明问题,因为这超出了我们的范围。
内在通道和数据集
本节讨论了模型中使用的固有通道X,以及我们使用或准备的带有配对RGB图像和固有通道的数据集。
固有通道
在RGB→X和X→RGB模型中,使用以下通道:
曾考虑添加每个像素的深度通道,但最终发现这是不必要的,因为深度可以从法向量中估计,而法向量通常包含更多有关高频局部变化的信息。
与传统渲染框架中的材质系统不同,上述属性相对不太精确。例如,它们无法表示玻璃。相反,我们将玻璃视为具有零粗糙度和金属度。这通常不会造成问题:模型根据上下文推断出一个对象是窗户还是玻璃柜,并且合理地补充玻璃后面的对象或光照。
数据集中的所有固有通道都与相应的RGB图像具有相同的分辨率,并且由RGB→X以全分辨率进行估计。然而,有时候将X→RGB的条件降采样到的通道是有益的,如所讨论的那样。
数据集
为了训练我们的模型,理想情况下希望拥有一个大规模、高质量的图像数据集,其中包含我们需要的所有通道的配对信息:法向量n、反照率a、粗糙度r、金属度m、漫反射辐照度E、相应的RGB图像I(理想情况下是真实照片或至少是非常逼真的渲染图像),以及描述图像的文本标题。然而,目前没有现有的数据集能够满足这些要求,因此我们需要拼凑具有部分信息的数据集,并构建新的数据集来填补空白。下表1总结了我们使用的数据集的大小和通道可用性。
InteriorVerse是一个合成的室内场景数据集,包含超过50,000张渲染图像,除了渲染图像I外还有法向量n、反照率a、粗糙度r和金属度m通道。该数据集存在一些问题。首先,渲染图像包含噪音;这对RGB→X估计不构成问题,但X→RGB合成模型学会了复制不受欢迎的噪音。我们通过应用现成的去噪器(NVIDIA OptiX去噪器)来解决这个问题。此外,我们发现粗糙度和金属度值通常是可疑的,因此决定不使用它们来处理该数据集。该数据集还具有合成风格,如果仅对其进行训练,X→RGB模型会学会模仿该风格。
物体和材料的种类较少会导致一些偏见,例如,绿色反照率与植物具有很强的相关性,因此如果仅在InteriorVerse上进行训练,那么绿色反照率的墙壁会合成具有叶状纹理。
Hypersim是另一个合成的逼真数据集,包含超过70,000张渲染图像,其中包含法向量n、反照率a以及最重要的漫反射辐照度E数据。该数据集不包括粗糙度和金属度等其他材料信息,并且有时会将镜面照明嵌入到反照率中。幸运的是,这种情况并不常见,不会阻止我们使用反照率数据。尽管Hypersim扩展了场景的外观多样性,但仍不足以进行高度逼真的合成。
使用了两个我们自己的数据集来补充这些不足。第一个是Evermotion,这是一个类似于InteriorVerse的合成数据集,由艺术家创建的合成场景渲染而成,随机放置相机沿着预先录制的相机路径,并渲染了85个室内场景的17,000张图像。Evermotion的主要好处是它为我们提供了粗糙度r和金属度m,对于这些数据集,这是目前唯一可靠的来源。
为了进一步增强训练数据,并帮助我们的X→RGB模型合成逼真的图像,使用了50,000张高质量的商业室内场景图像。这些图像来自照片或高质量渲染图像,没有额外的通道可用。因此,使用RGB→X模型估计法线、反照率、粗糙度、金属度和漫反射辐照度。图像和估计通道的组合形成我们的ImageDecomp数据集。
为了在对X→RGB进行微调时更好地保留基础扩散模型的现有文本理解能力,我们使用BLIP-2模型为上述所有数据集中的所有图像预先计算图像标题。
RGB→X模型
我们的RGB→X模型,用于从输入RGB图像I估计固有通道X。输出包含了在前面讨论的所有通道。与Kocsis等人类似,我们微调了一个预先训练好的文本到图像潜空间扩散模型,即Stable Diffusion2.1。下图2显示了我们模型的高级概述。
处理多个输出通道。 原始Stable Diffusion模型的输出是一个4通道的潜在图像,可以解码为单个RGB图像。由于我们的目标是产生额外的输出通道(反照率a、法向量n、粗糙度r、金属度m和光照E),可能期望扩展更多的潜在通道可以更好地编码信息,就像以前的工作所做的那样。然而,发现扩展原始模型的潜在通道数量会导致质量较低的结果。事实上,向扩散模型的操作潜在空间添加更多的潜在通道会迫使我们从头开始重新训练输入和输出卷积层。从某种意义上说,模型突然“掉落”到一个新的领域,使得训练更加具有挑战性。
我们使用各种数据集来训练模型以增加多样性,如前面所述,但这带来了另一个问题,即异构固有通道,这对我们的方法来说是具有挑战性的,因为将所有固有通道堆叠成一个更大的潜在。一个直接的方法是在每个训练迭代中仅包括可用图中的损失。然而,发现这种方法的表现很差。
X→RGB模型
现在描述我们的X→RGB模型,从固有通道X执行逼真的RGB图像合成,如图2所示。
与RGB→X类似,我们从Stable Diffusion2.1开始微调扩散模型,考虑了几个不同的因素。
这种方法让训练期间处理异构数据集,并选择在推断时提供哪些输入;例如,不提供反照率或照明将导致模型生成合理的图像,利用其先验来弥补缺失的信息(见下图6)。
低分辨率照明。RGB→X模型成功地估计了高度详细的照明,以漫反射辐照度图E的形式,紧密跟随高分辨率的几何和法线。虽然这对某些应用可能有益,但如果我们想要使用这些详细的照明缓冲区进行X→RGB呈现,将会出现问题,因为我们希望实际编辑详细的法线,并使用E的粗略解释来控制照明。换句话说,希望将照明作为对X→RGB模型的“提示”,而不是精确的像素控制。与将完整分辨率的照明E编码到潜空间不同,我们只是将其降采样到与潜变量相同的分辨率。通过这样做,为X→RGB模型提供了一种更粗糙的照明提示,而没有像素细节,同时仍然实现了对整体照明条件的遵循。这在编辑下图7中的法线时很重要。
结果
关于从生成模型中选择结果的说明。将生成模型应用于RGB→X和X→RGB问题意味着输出不是唯一的,而是从分布中抽样的。虽然我们可以评估多个样本并取它们的平均值,但我们不建议这种方法,因为它可能会模糊每个样本中已经合理估计的细节。相反,在论文中选择一个单独的样本进行展示,并在补充材料中提供更多样本。反照率、照明和法线样本通常可用,但由于缺乏可靠的训练数据和这些属性的固有歧义,对于粗糙度和金属性则需要更多的关注。
合成和真实输入上的RGB→X
下图3和图4展示了我们在合成和真实示例上进行的内在通道估计的结果。这些合成输入示例中没有一个是训练数据的一部分。
反照率。将合成和真实输入的反照率估计与以前的工作进行了比较,如图3(a)所示合成输入和图4(a, b)所示真实输入。一般来说,我们发现我们的模型最擅长从输入中去除反射、高光、阴影和色彩偏差,同时提供应该是恒定的反照率区域的最平坦估计。Zhu等人的方法在合成和真实输入上表现更差,暗示着非生成模型的局限性,也没有设计包含有关反照率估计问题的特殊知识的模型。Careaga和Aksoy最近的内在分解方法提供了良好的结果,但我们的模型实现了更平坦的恒定区域和更合理的白平衡。
虽然他们也展示了令人印象深刻的结果,但对于Kocsis等人的扩散模型来说也是如此。例如,图4(a, 顶部行)中的卧室照片上,我们的模型是唯一正确预测所有床单像素应该具有相同白色反照率的模型。图4(b)中的具有挑战性的真实图像也产生了非常清晰的反照率估计结果,优于其他方法,尽管我们的模型可能会删除木地板上的一些磨损,可能是由于在合成材料上进行训练而不考虑磨损。
漫反射辐照度(照明)。在图3(b)中,看到我们的模型在合成数据上产生了与真实情况非常接近的漫反射辐照度估计,即使在具有复杂阴影模式的输入上,也很少或几乎没有材料属性泄漏到估计中。辐照度中的颜色也被合理地偏离了纯白色,以适应有色照明。我们的估计结果在真实输入上也是真实而合理的,如图4(b)所示。Careaga和Aksoy没有直接提供辐照度,因此我们将原始图像除以他们预测的反照率,使用得到的近似辐照度作为基线。
金属性和粗糙度。如图3(c, d)和图4(c, d)所示,RGB→X模型针对给定的输入图像生成了更加合理的粗糙度和金属性估计,比先前公开的最先进方法。这些材料属性的准确恢复具有挑战性,原因有两个。首先,它们的可靠训练数据量最低。其次,只有在适当的高频照明下照亮时,它们才会显著影响表面反射;否则,模型必须返回先验知识,估计对象可能是什么以及这种对象是否倾向于粗糙或金属。这些问题导致我们的模型的抽样方差更高,而“好”的样本数量更少。在补充材料中展示了我们估计的这种变化性。
法线。 在合成测试(图3(e))以及真实测试(图4(e))中,展示了我们的模型合理地估计了法线,包括高频几何,同时在平坦表面上正确预测了平坦法线,即使它们具有纹理或高频照明。结果优于Zhu等人,并且在最先进的PVT-normal方法上略有改进。虽然观察到我们的模型法线估计在一般情况下表现合理(请参阅补充材料中的更多示例),但我们并不声称在这个领域有普遍改进,因为PVT-normal专门设计为在一般图像上表现良好。提供这个比较是为了完整起见。
定量比较。对于反照率、法线、粗糙度和金属性估计,在表2中与相应的先前方法进行比较。发现我们的RGB→X在所有通道上都具有最佳的PSNR和LPIPS值,唯独辐照度我们没有现有的方法进行比较。
X→RGB模型结果
与路径跟踪参考的比较。在下图5中,验证了我们的X→RGB模型生成的结果与传统的蒙特卡罗路径跟踪非常接近,只要输入通道X不远离合成室内训练分布。在这里,我们使用一个常见的合成厨房场景,不属于我们的训练数据。我们使用所有内在通道(显示在左侧)并将它们与文本提示一起输入到我们的模型中。结果在材料外观和全局照明方面与路径跟踪参考很好地匹配。也可以注意到一些差异:例如,在输入通道中,炉灶具有一种暗金属材料,这在训练数据中很少见。我们的模型生成了一个更明亮的铝材料,与金属性而不是反照率通道相匹配。
输入通道子集和文本提示。下图6展示了我们的X→RGB模型通过仅指定一部分外观属性作为输入来生成合理图像的能力。此外,文本提示可以用于额外的控制。在这里,我们控制照明(a)或物体颜色(b)。通常,当只有少数物体时(例如,一个沙发和几个靠垫),文本控制效果很好。通过文本控制特定对象的颜色是困难的,但这个问题对所有扩散模型都是一个普遍的挑战。
应用
材料替换。在前面图7的左上示例中,编辑了沙发的法线和反照率(由RGB→X估算),并使用我们的修复X→RGB模型重新合成图像,结果是一个更模糊、更凹凸不平的红色沙发。在右上方,我们将内在估计应用于经典的康奈尔盒图像,并将右墙反照率编辑为蓝色。观察到右侧箱子中的颜色渗透正确更新了。这里的修复mask包括一个较大的区域,允许进行颜色渗透校正。在底部示例中,我们更改了原始房间的法线和反照率,以编辑地板外观为木地板。
对象插入。在前面图1(c)中,使用我们的框架将新的合成对象插入RGB图像中。我们渲染新对象的内在通道,并将它们合成到估算的通道中。我们使用带有矩形MASK的修复X→RGB模型来生成具有正确照明和阴影的合成图像,最后使用更紧的mask将其与原始图像混合。雕像和咖啡车很好地融入了场景中。
结论
本文探讨了一种用于从图像估算内在通道(称为RGB→X)并从这些通道合成逼真图像(X→RGB)的统一扩散框架。内在信息X包含反照率、法线、粗糙度、金属度和照明(辐照度)。RGB→X模型与或超过了先前方法的质量,这些方法专门针对我们内在通道的子集。X→RGB模型能够合成逼真的最终图像,即使我们只指定了应该遵循的某些外观属性,并给予模型生成其余部分的自由。我们展示了结合两个模型可以实现材料编辑和对象插入等应用。相信我们的工作是通向统一扩散框架的第一步,这种框架能够进行图像分解和渲染,可以为广泛的下游编辑任务带来好处。
本文转自 等 AI生成未来 ,作者:Zheng Zeng