3D生成基础模型来了!只需5秒,高质量3D资产规模化生成!南洋理工等重磅开源3DTopia-XL 精华
文章链接:https://arxiv.org/pdf/2409.12957
项目链接:https://3dtopia.github.io/3DTopia-XL/
今天AI生成未来和大家分享的是南洋理工、北大、上海AI Lab和港中文联合发布的3D PBR资产生成最新工作3DTopia-XL。通过基于高效且表达力强的3D表示方法PrimX的扩散Transformer(DiT),实现高质量3D资产生成的规模化。去噪过程只需5秒钟,就能从文本或图像输入生成可用于图形pipeline的3D PBR(物理渲染)资产。
关键思想是一种新颖的3D表示,即PrimX。它明确地将纹理网格的3D形状、纹理和材质编码为紧凑的N x D张量。此表示中的每个token都是一个体积图元,通过体素化有效载荷anchor到形状表面,以编码SDF、RGB和材质。
亮点直击
- 提出了一种新颖的3D表示方法PrimX,用于高质量3D内容的创建,它高效、张量性强且可渲染。
- 引入了一个可扩展的生成框架3DTopia-XL,只需5秒,专为生成具有高分辨率几何图形、纹理和材质的高质量3D资产而设计。
- 提出了实用的资产提取技术,将3D表示转化为实体资产,以避免质量损失。
- 展示了3DTopia-XL在图像到3D和文本到3D任务中的卓越质量和令人印象深刻的应用。
解决的问题
3DTopia-XL主要解决的问题是现有3D生成模型在优化速度、几何细节保真度以及物理基础渲染(PBR)资产生成方面的挑战。它旨在提高3D内容创作的效率和质量,满足游戏开发、电影制作、虚拟现实等各行各业对高质量3D资产的日益增长的需求。
提出的方案
3DTopia-XL提出了一种可扩展的原生3D生成模型,利用了一种新颖的基于原始的3D表示方法PrimX,该方法将详细的形状、反照率和材料场编码为紧凑的张量格式,从而促进了高分辨率几何体与PBR资产的建模。此外,提出了一个基于扩散Transformer(DiT)的生成框架,包括原始补丁压缩和潜在原始扩散,从文本或视觉输入中学习生成高质量的3D资产。
应用的技术
- PrimX表示法:一种新颖的基于原语的3D表示方法,将3D物体的形状、反照率(albedo)、材质信息编码到一个紧凑的张量格式中。
- 原始补丁压缩:使用三维变分自编码器(VAE)对每个原语的空间信息进行压缩,得到潜在的原语标记。
- 潜在原语扩散(Latent Primitive Diffusion):基于Diffusion Transformer(DiT)框架,模型学习了如何从随机噪声中逐步去除噪声,生成符合输入条件的潜在原语token。
- 可微分渲染:PrimX表示法支持可微分渲染,模型可以直接从二维图像数据中学习,提高了模型从现有图像资源中学习的能力 。
达到的效果
3DTopia-XL在生成具有细致纹理和材料的高质量3D资产方面显著优于现有方法,有效弥合了生成模型与现实世界应用之间的质量差距。生成的三维物体具有平滑的几何形状和空间变化的纹理和材质,接近真实物理材质感。此外,模型能在五秒内完成从输入到三维模型的转换,大幅提高创作效率 。
方法
PrimX:形状、纹理和材质的高效表示
在高质量大规模3D生成模型的背景下,3D表示的以下设计原则:
- 参数高效:在近似误差和参数数量之间提供良好的折衷;
- 快速张量化:可以高效地转化为张量结构,这有助于利用现代神经架构进行生成建模;
- 可微分渲染:与可微分渲染器兼容,使得可以从3D和2D数据中进行学习。
定义
受Yariv等人的启发,其中马赛克体素通过全局加权来获得光滑的表面,纹理化网格的近似定义为原语的加权组合。
从纹理网格计算PrimX
原语补丁压缩
本节介绍基于补丁的原语压缩方案,主要有两个目的:
- 融合几何、颜色和材质之间的通道相关性;
- 将 3D 原语压缩为潜在令牌,以实现高效的潜在生成建模。
潜在原语扩散
实验
实现细节
数据标准化
条件信号
条件生成器。前面的条件生成公式与大多数模态兼容。本文主要探索了两种模态的条件生成,即图像和文本。
图像。对于图像条件模型,我们利用预训练的 DINOv2 模型,具体是“DINOv2-ViT-B/14”,从输入图像中提取视觉标记,并将其作为输入条件c 。得益于我们高质量的表示 PrimX 及其高效渲染的能力,我们不需要经历像其他工作那样复杂且昂贵的渲染过程,这些工作将所有原始网格渲染为 2D 图像进行训练。相反,选择使用 Eq. 6 渲染的前视图图像,1) 计算上足够高效,2) 与底层表示一致,相比于从原始网格渲染的结果。
文本标题。从 Objaverse 中采样 200,000 个数据点来生成文本标题。对于每个物体,渲染六个不同的视图,并以白色背景为背景。然后,使用 GPT-4V 根据这些图像生成关键词,重点关注几何、纹理和风格等方面。虽然我们为每个方面预定义了某些关键词,但模型也鼓励生成更多上下文特定的关键词。一旦获得关键词,便使用 GPT-4 将其总结为一个完整的句子,开头为“一个 3D 模型...”。这些文本标题随后被准备为输入条件。
模型细节
推理。默认情况下,使用 25 步 DDIM采样器和 CFG 缩放因子为 6 来评估我们的模型。我们发现 DDIM 采样步骤的最佳范围是 25 到 100,而 CFG 缩放因子的最佳范围是 4 到 10。推理过程可以在单个 A100 GPU 上高效完成,时间约为 5 秒。
表示评估
评估协议。首先在 3D 生成建模的背景下评估不同的 3D 表示设计。我们的评估原则集中在两个方面:1) 从 GLB 网格到表示的运行时,2) 在固定计算预算下,给定形状、纹理和材料的近似误差。我们随机从训练数据集中抽取 30 个 GLB 网格,记录至收敛的平均拟合时间作为运行时,测量方式为在 A100 GPU 上的墙面时间。对于几何质量,我们评估真实网格与拟合后提取网格之间的 Chamfer 距离(CD),以及在形状表面附近采样的 500,000 个点的 SDF 值的峰值信噪比(PSNR)。对于外观质量,我们评估在表面附近采样的 500,000 个点的 RGB(反照率)和材料值的 PSNR。
基线。给定PrimX的最终超参数,其中N=2048,a=8,我们将所有表示的参数数量固定为2048 × 83 ≈ 1.05M,以便进行比较。我们比较四种替代表示:1)MLP:一个纯多层感知器,包含3层和1024个隐藏维度;2)带PE的MLP:在输入坐标上添加位置编码(PE)(Mildenhall等,2020)的MLP基线;3)三平面(Chan等,2022):三个正交的2D平面,分辨率为128 × 128和16个通道,随后是一个具有512个隐藏维度的两层MLP解码器;4)密集体素:分辨率为100 × 100 × 100的密集3D体素。所有方法都使用与我们相同的目标(方程7)和点采样策略(第4.1.1节)进行训练。
结果。定量结果见下表1,显示PrimX在所有方法中实现了最低的近似误差,特别是在几何方面(由CD指示)。除了最佳质量外,所提议的表示在运行时效率方面表现显著,收敛速度比第二好的方法快近7倍,使其在大规模数据集上可扩展。图5展示了定性比较。基于MLP的隐式方法似乎存在周期性伪影,特别是在几何方面。三平面和密集体素产生了凹凸不平的表面以及形状表面周围的网格伪影。相反,PrimX则产生了最佳质量,具备光滑的几何形状和细致的细节,如纤细而逐渐变细的胡须。
图像到3D生成
本节将单视图条件生成模型与适合图像到3D合成的最先进方法进行比较。
比较方法。对两种类型的方法进行了评估:1)稀疏视图重建模型和2)图像条件扩散模型。基于重建的方法,如LGM、InstantMesh、Real3D和CRM,是确定性方法,旨在根据四个或六个输入视图重建3D对象。它们通过利用预训练的扩散模型从输入单一图像生成多个视图,从而实现单视图到3D的合成。然而,重建方法严重依赖输入的多视图图像,因此会受到前端2D扩散模型导致的多视图不一致性影响。前馈扩散模型,如CraftsMan、Shap-E和LN3Diff,是概率方法,旨在根据输入图像条件生成3D对象。上述所有方法仅建模形状和颜色,而不考虑粗糙度和金属质感,而我们的方法适合生成这些资产。
结果。下图6展示了定性结果。为了公平比较生成适合渲染的3D资产的能力,我们将每种方法导出的纹理网格导入Blender并使用目标环境贴图进行渲染。对于无法生成PBR材料的方法,我们分配默认的漫反射材料。现有的基于重建的模型未能产生良好的结果,可能受到多视图不一致性和无法支持空间变化材料的影响。此外,这些重建模型基于三平面表示,这在参数效率上表现不佳。这一缺点限制了底层3D表示的空间分辨率,导致渲染法线指示的凹凸不平的表面。另一方面,现有的3D扩散模型未能生成与输入条件视觉对齐的对象。虽然CraftsMan是唯一与我们具有可比表面质量的方法,但它们仅能生成没有纹理和材料的3D形状。相比之下,3DTopia-XL在所有方法中实现了最佳的视觉和几何质量。得益于我们生成空间变化的PBR资产(如金属质感和粗糙度)的能力,我们生成的网格即使在恶劣环境照明下也能产生生动的反射和镜面高光。
用户研究。我们进行了一项广泛的用户研究,以定量评估图像到3D的性能。我们选择了输出评估(Bylinskii等,2022)作为用户研究,在该研究中,每位志愿者会看到一对结果,比较随机方法与我们的方法,并被要求在四个方面选择更好的一个:1)整体质量,2)图像对齐,3)表面光滑度和4)物理正确性。共提供48对样本给27位志愿者进行翻转测试。我们在图7中总结了所有四个维度的平均偏好百分比。3DTopia-XL在所有方法中表现最佳。尽管我们方法的图像对齐仅比基于重建的方法(如CRM)有所改进,但几何质量的优越性和建模基于物理材料的能力是最终渲染中产生最佳整体质量的关键。
文本到3D生成
展示了原生文本到3D生成的能力,如下图4所示。作为一个3D原生扩散模型,我们的文本驱动生成是通过直接对模型进行文本输入的条件,而不依赖于复杂的文本到多视图再到重建模型的流程。
此外,还针对原生文本到3D生成模型进行了定量评估。为此,我们采用CLIP评分作为评估指标,测量文本嵌入和图像嵌入在CLIP模型的联合文本-图像空间中的余弦相似度。使用每种方法的前视图渲染来计算图像嵌入。主要比较了两个具有开源实现的方法:Shap-E和3DTopia。Shap-E直接根据文本生成3D物体的隐式函数,而3DTopia则采用了混合的2D和3D扩散先验,使用前馈三平面扩散,然后进行基于优化的精炼。正如表5所示,我们的方法在输入文本和生成资产的渲染之间实现了更好的对齐。
进一步分析
原语的数量和分辨率
原语的数量N和每个原语的分辨率a是影响PrimX效率-质量权衡的关键因素,既是结构化的3D表示,也是序列化的表示。增加更多和更大的原语通常会导致更好的近似质量;然而,这也会导致序列长度增加和特征维度更深,从而导致长上下文注意力计算效率低下和扩散模型训练困难。
为了评估原语数量和分辨率的影响,在离表面500k个采样点上评估了签名距离函数(SDF)、反照率和材料值的PSNR。结果如下表2所示,给定固定的参数数量,较长的原语序列能更好地近似SDF、纹理和材料。此外,增加每个原语的分辨率可以减少近似误差,但当原语数量充足时,这种好处会变得边际化。
下图8中的可视化结果也支持这些发现。
例如,使用 N = 64, a = 32 的替代方案即使在参数数量较高的情况下也会产生较差的几何形状,因为较大的局部原语更容易在空白空间中浪费参数。此外,较长的序列会增加扩散模型(DiT)的GFlops,导致生成质量更好(见下表3)。因此,我们的方法倾向于使用较长的原语序列,同时保持相对较小的局部分辨率。值得注意的是,我们的变分自编码器(VAE)压缩率也会影响PrimX的超参数,我们将在下一节中进一步探讨。
patch压缩率
基于原语的patch变分自编码器(VAE)的压缩率也是一个重要的设计选择。总体而言,作为一种patch压缩方法,目标是对每个原语进行空间压缩,以节省计算资源,而不是进行语义压缩。经验上,更高的压缩率会导致更高效的潜在扩散模型,在扩大规模时可以指示更大的批量大小或更大的模型。相反,极端的压缩往往伴随着信息的丢失。
扩展性
进一步研究了3DTopia-XL的扩展性规律,关注模型大小和迭代次数。作为指标,使用在没有条件生成(CFG)指导下,对5000个随机样本计算的Fréchet Inception Distance(FID)。具体而言,考虑在VAE潜在空间中计算的Latent-FID和在使用公式6渲染的图像提取的DINO嵌入上计算的Rendering-FID。下图9展示了随着模型规模的增加,Latent-FID和Rendering-FID的变化。观察到随着模型的加深和加宽,性能有了一致的提升。表3还表明,较长的序列(较小的patch)会导致更好的性能,这可能与原始DiT中的发现有关,即增加GFlops会提高性能。
采样多样性
最后,展示了3DTopia-XL作为生成模型所展现出的令人印象深刻的采样多样性,如下图10所示。给定相同的输入图像和不同的随机种子,模型能够生成多样化的高质量3D资产,这些资产具有不同的几何形状和空间变化的PBR材料。
讨论
3DTopia-XL,这是一个针对给定文本或视觉输入的原生3D扩散模型,用于PBR资产生成。方法的核心是PrimX,这是一种创新的基于原语的3D表示,具有参数高效、张量化和可渲染的特点。它将形状、反照率和材质编码为一个紧凑的(NXD)张量,使得能够对具有PBR资产的高分辨率几何体进行建模。
为了适应PrimX,引入了几种训练和推理技术,以确保生成的结果可以高质量地打包到GLB文件中,便于在图形引擎中的后续应用。广泛的评估表明,3DTopia-XL在文本到3D和图像到3D的任务中表现优越,展现了其作为3D生成基础模型的巨大潜力。
本文转自 AI生成未来 ,作者:AI生成未来