AI生成模型在过去这段时间里取了巨大的进展,就图像领域来说,用户可以通过输入自然语言提示来生成图像(如DALL-E 2,Stable Diffusion),也可以在时间维度上扩展生成连续的视频(如Phenaki),或者在空间维度上扩展直接生成3D模型(如Dreamfusion)。
但到目前为止,这些任务仍然处于孤立的研究状态,彼此之间不存在技术交集。
最近Meta AI的研究人员结合了视频和三维生成模型的优势,提出了一个全新的文本到四维(三维+时间)生成系统MAV3D(MakeA-Video3D),将自然语言描述作为输入,并输出一个动态的三维场景表示,可以从任意的视角进行渲染。
论文链接:https://arxiv.org/abs/2301.11280
项目链接:https://make-a-video3d.github.io/
MAV3D也是第一个可以根据给定文本描述来生成三维动态场景的模型。
文中提出的方法使用了一个4D 动态神经辐射场(NeRF) ,通过查询基于文本到视频(T2V)扩散的模型来优化场景表现、密度和运动一致性,由提供的文本生成的动态视频输出可以从任何摄像机的位置和角度观看,并且可以合成到任意的3D环境中。
该方法可用于为视频游戏、视觉效果或增强型和虚拟现实生成3D资产。
与图像生成和视频生成任务不同的是,互联网上有大量的caption数据可供训练,但却连一个现成的4D模型集合都没有。
柯基玩球
MAV3D的训练不需要任何3D或4D数据,T2V 模型只需要在文本-图像对和未标记的视频上进行训练。
在实验部分,研究人员进行了全面的定量和定性实验以证明该方法的有效性,对之前建立的内部基线有明显提升。
文本到4D动态场景
由于缺乏训练数据,研究人员为了解决这个任务构想了几种思路。
一种方法可能是找到一个预先训练好的二维视频生成器,并从生成的视频中提炼出一个四维重建。不过从视频中重建可变形物体的形状仍然是一个非常具有挑战性的问题,即非刚性运动结构(Non-Rigid Structure from Motion, NRSfM)。
如果给定物体的多个同步视点(multiple simultaneous viewpoints),任务就变得简单了。虽然多机位设置在真实数据中很少见,但研究人员认为,现有的视频生成器隐含了生成场景的任意视点模型。
也就是说,可以将视频生成器作为一个「统计学」的多摄像机设置来重建可变形物体的几何和光度。
MAV3D算法通过优化动态神经辐射场(NeRF)与将输入文本解码成视频,对物体周围的随机视点进行采样来实现该目的。
直接使用视频生成器来优化动态NeRF并没有取得令人满意的结果,实现过程中还有几个难题需要攻克:
1. 需要一个有效的、端到端可学习的动态三维场景表征;
2. 需要一个有监督学习的数据源,因为目前并不存在大规模的(文本,4D)对的数据集可供学习;
3. 需要在空间和时间维度上扩展输出的分辨率,因为4D输出需要大量的内存和计算能力;
MAV3D模型
MAV3D模型基于神经辐射场(NeRFs)的最新工作,结合了高效(静态)NeRFs和动态NeRFs中的成果,并将4D场景表示为六个多分辨率特征平面的集合。
为了在没有相应(文本、4D)数据的情况下监督这种表示,研究人员提出了一个用于动态场景渲染的多阶段训练pipeline,并证明了每个组件在实现高质量结果中的重要性。
一个比较关键的观察结果是,使用Text-to-Video(T2V)模型,利用Score Distillation Sampling(SDS)直接优化动态场景会导致视觉伪影和次优收敛。
所以研究人员选择首先利用文本到图像(T2I)模型,将静态的三维场景与文本提示相匹配,随后再用动态的方式增强三维场景模型。
此外,模型中还引入了一个新的temporal-aware SDS损失和运动正则项,通过实验证明了其对现实中和具有挑战性的运动至关重要。
并且通过一个额外的temporal-aware超分辨率微调阶段扩展到更高分辨率的输出。
最后使用T2V模型的超级分辨率模块的SDS来获得高分辨率的梯度信息来进行有监督学习三维场景模型,增加其视觉保真度,能够在推理过程中对更高分辨率的输出进行采样。
实验部分
评价指标
使用CLIP R-Precision来评估生成的视频,可以用于衡量文本和生成场景之间的一致性,可以反应输入提示从渲染的框架中的检索准确性。研究人员使用CLIP的ViT-B/32变体,并在不同的视图和时间步中提取帧。
除此之外还使用了四个定性指标,通过询问人类标注员在两个生成的视频中的偏好,可以得出(i)视频质量;(ii)对文本提示的忠实度;(iii)运动量;以及(iv)运动的真实性。
Text-to-4D对比
由于之前没有文字转4D的方法,所以研究人员建立了三个基于T2V生成方法的基线用于对比,二维帧的序列就会用三种不同的方法转化为三维场景表示的序列。
第一个序列是通过one-shot神经场景渲染器(Point-E)得到;第二个是通过对每一帧独立应用pixelNeRF生成的;第三个是应用D-NeRF结合使用COLMAP提取的相机位置。
可以看出,该方法在客观的R-精度指标上超过了基线模型,并且在所有指标上都得到了人类标注员更高的评价。
此外,研究人员还探索了该方法在不同相机视角下的表现。
消融实验
1、 在没有场景超分辨率(SR)微调的情况下训练的模型,其步骤数与MAV3D相同(阶段3)的情况下,人类标注员在质量、文本对齐和运动方面都更倾向于选择用SR训练的模型。
此外,超分辨率微调增强了渲染视频的质量,使高分辨率视频具有更精细的细节和更少的噪音。
2、无预训练:在直接优化动态场景(没有静态场景预训练)的步骤与MAV3D相同的情况下,结果是场景质量低得多或收敛性差:在73%和65%的情况下,用静态预训练的模型在视频质量和现实运动方面更受欢迎。