三张图片生成一个手办3D模型！南加州大学华人博士提出新模型NeROIC，更真实！-手办3d模型下载

随着深度学习的加入，计算机图形学又产生了很多新兴领域。神经渲染（Neural Rendering）技术就是利用各种深度神经网络进行图像合成，通过自动化的流程，能够节省大量从业人员的时间和精力。例如给定几张不同角度拍摄的二维图像，神经渲染模型能够生成一个三维模型，而无需任何人工的介入。

在现实场景中，可能你会有一堆手办的照片，如果按照传统的方式都建成3D模型，那需要耗费的工作量，想想都头秃。

神经渲染技术可以很容易地把这些模型输入到计算机中，并让机器理解这些照片中的物体在三维空间中的实际形状和物理状态。对于人来说，这项任务可以说是十分容易了，因为人眼了解现实世界，也知道图像的深度，但对于只能看到像素的计算机来说，神经渲染模型的设计还是很有挑战的。

除了拍手办以外，游戏从业者还可以利用神经渲染技术，简单地拍摄一些物体的照片，合成3D模型，然后就可以制作出一个完美的游戏场景。但模型如果只是看起来准确，形状更贴合照片，还远远不够，因为一旦把合成后的物体放入到新场景中，因为光影的不同，合成模型在新环境中显得格格不入，所以一下子就会「露馅」。针对这个问题，来自SnapChat和南加州大学的研究人员提出了一个新模型NeROIC，能够解决从图像中创建虚拟物体所带来的照明和真实性的问题。

论文地址：https://arxiv.org/pdf/2201.02533.pdf 新模型建立在神经辐射场（neural radiance field）的基础上，神经辐射场广泛用于重构中，例如NeRF等模型。但神经辐射场需要在相同的理想条件下才能够完美建模，但这并不符合真实场景的需求。研究人员从NeRF模型出发来改进。NeRF神经网络的训练输入为一张图片，用来推测每个像素的颜色、不透明度和辐射度，并猜测物体中没有出现在二维图像中的小部分的缺失像素。但这种方法对大面积的缺失部分或不同的照明条件下没有作用，因为它只能从输入的图像中进行插值。所以新的模型需要更多的信息来推断，并对某个地方应该出现的东西或这些像素在这种光照下应该是怎样的做出假设等。

许多方法都是在NeRF的基础上解决这个问题，但新模型总是需要用户提供更多的输入条件，这也并不符合实际场景的需求，并且在很多情况下用户也并不清除这些数据，特别是当其他人想建立一个好的数据集来训练模型时，就更加困难了。总的来说，之前的NeRF类模型并没有真正理解物体，也没有理解物体所处的环境。所以真正要解决的事又回到照明问题上了。

研究人员的目标是在网络图像（online images）中也能使用这种新模型架构，也就是说，具有不同灯光、相机、环境和姿势的图像，新模型都应该有能力来处理，这也是NeRF难以做到的真实性。除了需要物体本身的图像之外，他们唯一需要的东西是一个粗略的前景分割器和对摄像机参数的估计，这两个信息都可以通过其他可用的模型获得。前景分割基本上只是一个遮罩（mask），可以告诉模型用户感兴趣的物体在图像上的位置。

新模型所做的不同之处在于，他们将物体的渲染与输入图像中的环境照明分开，将这两个任务独立出来，在两个阶段内完成。

首先，（a）网络获取的是物体的几何形状，这是与NeRF最相似的部分，文中称为几何网络（Geometry Network）。它将输入图像、分割遮罩和相机参数估计结合起来建立一个辐射场，并找到每个像素的密度和颜色的猜测结果，整体流程和NeRF基本相同，但新模型需要适应输入图像中不同的照明条件。这种差异来源于模型中的两个分支，使得模型能够将静态内容与摄像机或阴影等变化的参数分开，从而能够训练模型如何正确地将静态内容与其他不需要的参数（如照明）隔离开来，但只有这些还无法完美还原模型的空间结构。在（b）中，研究人员将从这个学到的密度场（density field）中估计表面法线（surface normals）作为物体的形状纹理。换句话说，在（a）中产生的结果能够帮助找到物体对光线的反应。在这个阶段可以找到物体的无偏材料属性（unbiased material properties），或者是使用一个带有Sobel kernel的三维卷积得到对属性的估计值。整个过程基本上就是一个filter，可以在三维空间中使用它来找到所有的物体边缘和确定边缘的锐利程度，可以提供关于物体的不同质地和形状的基本信息。

阶段（c）是调整模型学到的几何体，并优化刚刚使用这个渲染网络产生的法线。同样包含两个分支，一个是材料（material），另一个是照明（lighting）。他们将使用球面谐波（spherical harmonics）来表示照明模型，并在训练中优化其系数。研究人员在论文中解释称，球面谐波在这里可以被用来代表一组定义在球面上的基础函数，定义在球体表面的每个函数都可以写成这些球面谐波的总和。这种技术经常被用于计算3D模型的照明。这种方法能产生高度逼真的阴影和阴影，而且开销相对较小。简而言之，它将简单地减少需要估计的参数数量，但保持相同的信息量。因此，与其从头开始学习如何为整个物体渲染适当的光照，文中提出的新模型将转而学习正确的系数以用于估计每个像素表面的光照，将问题简化为几个参数。另一个分支被训练来改善物体的表面法线，遵循同样的技巧，使用标准的Phong BRDF将基于几个参数找到物体的材料属性模型。最后渲染和照明两个分支被合并，以预测每个像素的最终颜色。文章中的实验部分和NeRF模型进行对比，评价指标为峰值信噪比（PSNR）和结构相似性指数测量（SSIM）平均分。

考虑到测试图像的照明条件是未知的，研究人员从同一场景下的另一张训练图像中挑选照明参数（嵌入式矢量或SH系数），并冻结网络，用随机梯度下降优化器对照明参数进行1000步优化。实验结果中可以看到，新模型以相当大的优势胜过了NeRF，并且在实际效果上，也比NeRF产生的结果更加一致和平滑。

文章的第一作者是匡正非，南加州理工的博士生，主要研究领域包括神经渲染、3D重构、人类数字化和动画、基于物理的模拟等，2019年本科毕业于清华大学。