五分钟生成漫威3D数字人！美队蜘蛛侠小丑都能搞定，高清还原面部细节-51CTO.COM

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

随着计算机图形学的发展，3D生成技术正逐渐成为研究热点。然而，从文本或图像生成3D模型仍然存在许多挑战。

近期，Google、NVIDIA和微软等公司推出了基于神经辐射场（NeRF）的3D生成方法，但这些方法与传统的3D渲染软件（如Unity、Unreal Engine和Maya等）存在兼容性问题，限制了其在实际应用中的广泛应用。

为此，影眸科技与上海科技大学的研发团队提出了一种文本指导的渐进式3D生成框架，旨在解决这些问题。

根据文字描述生成3D资产

该研究团队提出的文本指导的渐进式3D生成框架（简称DreamFace），结合了视觉-语言模型、隐式扩散模型和基于物理的材质扩散技术，生成符合计算机图形制作标准的3D资产。

这一框架的创新之处在于其几何体生成、基于物理的材质扩散生成和动画能力生成三个模块。

这项工作已被顶级期刊Transactions on Graphics接收，并将在国际计算机图形学顶级会议SIGGRAPH 2023上展示。

项目网站：https://sites.google.com/view/dreamface
预印版论文：https://arxiv.org/abs/2304.03117
Web Demo: https://hyperhuman.top
HuggingFace Space:https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar

如何实现DreamFace三大功能

DreamFace主要包括三个模块，几何体生成，基于物理的材质扩散和动画能力生成。相比先前的3D生成工作，这项工作的主要贡献包括：

提出了DreamFace这一新颖的生成方案，将最近的视觉-语言模型与可动画和物理材质的面部资产相结合，通过渐进式学习来分离几何、外观和动画能力。
引入了双通道外观生成的设计，将一种新颖的材质扩散模型与预训练模型相结合，同时在潜在空间和图像空间进行两阶段优化。
使用BlendShapes或生成的Personalized BlendShapes的面部资产具备动画能力，并进一步展示了DreamFace在自然人物设计方面的应用。

几何体生成：该模块通过CLIP（Contrastive Language-Image Pre-Training）选择框架根据文本提示生成几何模型。

首先从人脸几何参数空间随机采样候选项，然后根据文本提示选择匹配得分最高的粗略几何模型。

接下来，使用隐式扩散模型（LDM）和得分蒸馏采样（SDS）处理，从而在粗略几何模型中添加面部细节和详细的法线贴图，生成高精度几何体。