受益于预训练的大型语言模型和图像扩散模型(Satble Diffusion等)的可用性,自动化三维内容生成近期取得了快速进展。
现有的文本到三维模型的生成方法通常使用NeRF等隐式表达,通过体积渲染将几何和外观耦合在一起,但在恢复更精细的几何结构和实现逼真渲染方面存在不足,所以在生成高质量三维资产方面效果较差。
在这项研究中,华南理工大学提出了一种用于高质量文本到三维内容创建的新方法Fantasia3D,关键之处在于对几何和外观进行解耦的建模和学习。
图片
项目地址:https://fantasia3d.github.io/
对于几何学习,Fantasia3D依赖于显隐式结合的表达,并提出将渲染的表面法线图编码为Satble Diffusion的输入;对于外观建模,Fantasia3D引入了空间变化的双向反射率分布函数(BRDF)到文本生成三维模型的任务中,并学习生成表面的逼真渲染所需的表面材质。
解耦框架兼容目前的图形引擎,支持生成的三维资源的重新照明、编辑和物理仿真。
研究人员也进行了全面的实验,展示了该方法在不同的文本到三维生成任务设置下相对于现有方法的优势。
模型效果
对于给定的文本,Fantasia3D能够生成具有不同拓扑形状的三维模型以及具有照片级真实感的渲染表面。
同时,如下图1中右上角的狮子所示,由于使用了BRDF建模表面,Fantasia3D能产生较强的金属反射效果。
图1:三维模型生成效果
同时,Fantasia3D支持根据用户给定的粗糙三维物体和文本进行生成。
如下图2所示,给定一个粗糙的三维模型,Fantasia3D可将输入的粗糙模型作为初始化生成三维模型,这种优化方式可让生成过程更加快速和稳定,缓解文本到三维模型生成中的多面问题(Janus Problem)。
图2:根据用户给定的粗糙三维模型和文本进行生成。
另外,不同于现有的基于隐式表达(NeRF等)的方法,Fantasia3D采用了显隐式相结合的表达,生成的3D资产可以很好地与现有的图形渲染和仿真引擎相结合。
如下图3 (a) (b) 所示,生成的三维模型可以导入Blender中进行布料和软体的物理仿真,图3 (c) 则展示了用Blender替换生成材质的实验结果。
图3: 在Blender中进行编辑。
如下图4 (a) 所示,Fantasia3D生成的模型还可在Blender中替换不同的光照,从而产生不同的渲染效果。
(b) 中展示了将Fantasia3D生成的物体插入其他场景中的能力,插入的物体能与原环境中的光照环境进行交互,从而产生自然的反射效果。
图4: 给生成物体进行重新打光。
原理方法
Fantasia3D的方法概览如下图5所示。我们的方法可以根据文本提示生成解耦的几何和外观(见图 (a) ),二者分别通过 (b) 几何建模和 (c) 外观建模生成。
在 (b) 中,我们采用DMTet作为我们的三维几何表示,这里初始化为一个三维椭球体。
为了优化DMTet的参数,我们将从DMTet提取的网格的法线贴图(在早期训练阶段还会同时使用物体掩码)渲染为Stable Diffusion的形状编码。
在 (c) 中,对于外观建模,我们引入了空间变化的双向反射率分布函数(BRDF)建模,并学习预测外观的三个分量(即kd、krm和kn)。几何和外观建模都由分数蒸馏采样损失函数(SDS loss)进行监督。
图5: Fantasia3D流程图。
总结
本文介绍了一种名为Fantasia3D的自动化文本到三维生成的新方法,基于DMTet的混合表达,采用几何和外观的解耦建模和学习,能够生成精细的表面和丰富的材质/纹理。
对于几何学习,研究人员提出将渲染的法线贴图编码,并将法线的形状编码作为预训练的Stable Diffusion的输入。
对于外观建模,引入了空间变化的BRDF到文本生成三维对任务中,从而实现对学习表面的逼真渲染所需的材质的学习。
除了文本提示外,该方法还可以根据自定义的三维形状来生成,这对用户来说更加灵活,可以更好地控制生成的内容。
另外,该方法还方便支持生成的三维资产的重新照明、编辑和物理仿真。
作者介绍
陈锐是一名华南理工大学的在读研一学生,导师是贾奎教授。他的研究兴趣在于计算机视觉和计算机图形学的结合,特别是使用生成模型和基于物理的渲染技术创建高质量的3D资产领域。
个人主页:https://cyw-3d.github.io/
陈永炜,华南理工大学GorillaLab研究生三年级。师从贾奎教授,研究方向为三维视觉,多模态学习,可微渲染,扩散模型等,相关研究工作曾在CVPR、ECCV、NeurIPS、ICCV等计算机视觉和人工智能顶级会议上发表。近期研究方向侧重探索能够自动生成3D资产的AI模型,包括材质、形状、动作和其他相关参数。
个人主页:http://kuijia.site/
贾奎,华南理工大学教授,几何感知与智能实验室主任,广东省「珠江人才计划」创新创业团队带头人。曾先后于中科院深圳先进技术研究院、香港中文大学、伊利诺伊大学香槟分校先进数字科学研究中心、及澳门大学从事教学和科研工作。
研究领域包括计算机视觉、机器学习、人工智能等,近年来主要侧重于深度学习理论与泛化、几何深度学习、以及3D AIGC等研究;成果发表于TPAMI/CVPR/ICML/NeurIPS等顶级期刊和会议。担任TMLR/TIP等期刊副主编及ICML/ICCV/NeurIPS等会议领域主席。
几何感知与智能实验室(Gorilla Lab)聚焦机器学习、计算机视觉、三维感知等人工智能核心方向,侧重从语义感知和内容生成等角度,以学习数据内在的几何规律性和外在的几何表征为核心方法指导,对图像、视频、点云等高维数据进行智能处理,以推进相关领域发展和产业化落地。自成立以来,实验室先后获得来自国家自然科学基金委、广东省科技厅、华为技术有限公司等数千万的经费支持。
贾奎教授实验室提供多个博士后、博士、研究型硕士及研究助理岗位,有兴趣从事人工智能、计算机视觉、三维感知与生成研究的同学,请发信至 kuijia@gmail.com 。