高真实感、全局一致、外观精细，面向模糊目标的NeRF方案出炉-真实感的概念

[[402913]]

模糊复杂目标的高真实感建模和渲染对于许多沉浸式 VR/AR 应用至关重要，其中物体的亮度与颜色和视图强相关。在本文中，来自上海科技大学的研究者提出了一种使用卷积神经渲染器为模糊目标生成不透明辐射场的新方案，这是首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案，并以任意新视角生成全局一致的 alpha 蒙版。

具体而言，该研究提出了一种有效的采样策略以及摄像机光线和图像平面，从而能够进行有效的辐射场采样，并以 patch-wise 的方式学习。同时，该研究还提出了一种新型的体积特征集成方案，该方案会生成 per-patch 混合特征嵌入，以重建视图一致的精细外观和不透明输出。

此外，该研究进一步采用 patch-wise 对抗训练方案，以在自监督框架中同时保留高频外观和不透明细节。该研究还提出了一种高效的多视图图像捕获系统，以捕获挑战性模糊目标的高质量色彩和 alpha 图。在现有数据集和新的含有挑战性模糊目标的数据集上进行的大量实验表明，该研究提出的新方法可以对多种模糊目标实现高真实感、全局一致、外观精细的不透明自由视角渲染。

论文地址：https://arxiv.org/abs/2104.01772

该研究的主要贡献包括：

提出了一种新型卷积神经辐射场生成方案，用于重建高频和新视图中模糊目标的全局一致的外观和不透明度，并显著超越了此前的 SOTA 性能；
为了启用卷积机制，该研究提出了高效的采样策略，混合特征融合以及用于 patch-wise 辐射场学习的自监督对抗训练方案；
提出了一种高效的多视图系统，以捕获颜色和 alpha 图，以应对具有挑战性的模糊目标，该研究的捕获数据集可用于激发进一步的研究。

方法框架

研究者在论文中详细介绍了新提出的卷积神经不透明辐射场（convolutional neural opacity radiance field, ConvNeRF）。该模型基于捕获系统的 RGBA 输入，能够在新视图中实现高真实感、全局一致的外观和不透明渲染，如下图所示：

端到端 ConvNeRF pipeline 概览

给定多视图 RGBA 图像，研究者使用 SFS（Shape-From-Silhouette）来为高效射线采样推断代理几何。对于体积空间中的每个样本点，位置和方向都会馈入到一个基于多层感知机（MLP）的特征预测网络，以在全局水平上表征对象。然后，研究者将附近的射线合并为局部特征 patch，并使用卷积体渲染器将其解码为 RGB 和蒙版。他们在最终输出上使用对抗训练策略，以促成精细的表面细节。在 reference 阶段，该方法一次渲染整个图像，而不是渲染每个 patch。

该方法的主要思想是使用空间卷积机制对不透明信息进行显式编码，以改进神经辐射场方法（NeRF），对高频细节进行建模。受 NeRF 启发，研究者采用了类似的隐式神经辐射场来表征使用多层感知器的场景，以及沿投射射线方向预测密度和颜色值的体融合（volumetric integration）。

不同的是，ConvNeRF 通过空间卷积设计进一步显式编码不透明度，以显著改进神经辐射场重建。为此，研究者首先提出一种高效的采样策略，不仅利用沿摄像机光线的先验固有轮廓，还要编码整个图像平面上的空间信息。接着采用一种全局几何表征法将 3D 位置映射成高级辐射特征，并通过一种新型体融合方案生成 per-patch 混合特征嵌入，这样一来分别对外观和不透明度的特征进行建模，从而以 patch-wise 的方式进行更高效的辐射场学习。

最后，研究者使用一个轻量级的 U-Net 来将特征 patch 解码为视图一致的外观和不透明度输出，并进一步采用了一种 patch-wise 对抗训练方案，以在自监督框架中保留高频外观和不透明度细节。

捕获系统

该研究用到的捕获系统（capture system）能够生成高质量的多视图 RGBA 图像，用于对具有挑战性的模糊目标进行显式不透明度建模。

如下捕获系统概览图所示，该方法的 pipeline 配备了易于使用的捕获设备以及稳定的校验和自动抠图方法。

实验结果

该研究在多种毛茸茸物体上评估了 ConvNeRF。定量和定性评估实验的结果表明：与之前的工作相比，该方法可以更好地保留高保真外观细节，并在任意新视图中生成全局一致的 alpha 蒙版。该研究进一步进行了消融实验，以验证该方法的设计选择。

如下图 6 所示，在 Cat、Girl、Wolf 数据集上，研究者对该方法与 IBOH、NOPC、和 NeRF 的自由视点 RGB 进行了对比。结果发现，该方法能够在保留几何全局视图一致性的同时重建几何和外观上的精细细节，例如猫的毛皮纹理、女孩靴子上的图案以及狼毛的几何细节。IBOH 表现出重影和混叠，NOPC 存在过度模糊和几何细节的损失，而 NeRF 则表现出过多的噪声和模糊。

下图 7 展示了在 Cat、Hairstyle 2 数据集上，该方法与 IBOH、NOPC 和 NeRF 的自由视点 Alpha 效果比较。结果发现，该方法可以从视线不一致的 alpha 蒙版中恢复缺失的部分不透明度，例如猫的胡须，如第一行所示，而 IBOH 则会失败，并出现严重的伪影。该方法可以产生比 NOPC 更锐利（sharp）的 alpha 蒙版，后者会在头发周围产生严重的伪影。而 NeRF 在富有挑战性的 Hairstyle 2 数据集上失败了。

在定量评估方面，研究者使用 PSNR、LPIPS 和 SSIM 作为指标定量评估了几种方法。如下表 1 和表 2 所示，ConvNeRF 在 RGB 和 alpha 结果上都实现了显著的性能提升。

下表 3 展示了在半透明（即 0 < α < 1）区域上，所有数据集的平均 PSNR，该方法实现了 SOTA 性能。