一句话生成3D建模，OpenAI新模型炸场，开源可玩！-51CTO.COM

作者 | 徐杰承

51CTO读者成长计划社群招募，咨询小助手（微信号：CTOjishuzhan）

生成式AI不再满足于文本和图像，将战场扩展到三维了！

众所周知，GPT-4作为目前全世界最先进的多模态大模型，其在对话、文生图领域的能力可以说几乎无人能出其右。而如今,GPT-4母公司OpenAI决定再次对其所拥有的疆域进行扩张。

就在上周，OpenAI悄悄发布了最新的文字生成3D模型Shap·E，并一改此前的“保守态度”在Github上对该模型进行了开源（项目地址：https://github.com/openai/shap-e，截止发稿前Stars已经5.5K）。就连OpenAI总裁Greg Brockman也亲自发推为Shap·E打了一波广告。

1、Shap·E能做什么？

根据Github和相关论文介绍，Shap·E是OpenAI最新提出的一款三维资产的条件生成模型，当在大数据集中训练成对的文本数据及3D模型后，Shap·E能够在极短时间内反馈复杂多样的3D资产。简而言之，当用户输入一段简单的文字描述后，Shap·E在几秒钟内便能为用户生成对应的3D建模。

与其他单一输出表示的3D生成模型不同，Shap·E采用了3D模型领域创新的隐式神经表示（INR），支持神经辐射场（NeRF）和纹理网格（DMTet）两种方法。这意味着Shap·E可以直接生成可渲染的隐式函数的参数，从而更快、更准确地生成3D建模。

对于Shap·E的突然问世，部分用户及业内人士猜测，OpenAI很有可能正在为GPT-4到GPT-4.5的升级进行准备，经历下一个大阶段升级后的ChatGPT将很有可能会新增生成3D建模的能力。

2、Shap·E的技术创新

与此前业内所发布的其他的文生3D模型相比，Shap·E拥有更快的收敛速度，且所生成的3D建模拥有更高的质量。这主要是由于研发团队在模型训练过程中采用了神经辐射场（NeRF）技术并利用潜在向量序列代替了点云模式。

作为一种基于神经网络的3D重建技术，NeRF能够将场景建模成一个连续的5D辐射场隐式存储在神经网络之中，只需输入多角度2D图像，便能通过训练得到完整的辐射场模型并根据模型渲染出任意视角下建模的清晰图像。相当于从2D图像中组建出模型的3D画面，从而实现对物体的精确定位。

除此之外，NeFR的另一个优势在与其能够在低功耗的设备上进行渲染。高质量的NeRF甚至能够在手机或网络浏览器上完成对复杂形状光线追踪、高帧率、高分辨率逼真场景的渲染。除此之外NeFR还能够处理透明和反射材料，使得虚拟建模更加逼真。

然而，虽然相比于传统的基于集合的建模方法，NeRF在处理光线、反射等问题方面拥有更强的性能，但该技术也拥有两个较为明显的缺点——算力消耗大与图像生成速度慢。

为解决该问题，研发团队将Shap·E的训练分为了两个阶段，首先对编码器训练，使编码器能将3D资产映射到隐式函数参数中；其次在编码器的输出上训练条件扩散模型。与此前不同的是，Shap·E使用潜在向量序列代替了点云模式，可同时生成NeRF和DMTet并允许它们以多种方式呈现。

这也使得利用新方法训练的Shap·E模型与其他文生3D模型相比拥有更高的推理能力、3D模型生成质量以及模型生成效率。与此同时，也使模型的算力消耗保持在了一个相对较低的水平。

3、缺陷与局限性

当然，即便Shap·E的综合能力相比于现阶段同类型模型算得上优秀，但毕竟对目前的科技基础而言，我们在文生3D建模领域的技术积累还是要弱于对话以及文生图领域。

虽然Shap·E可以理解很多具有简单属性的单个对象的提示，但其在构建概念方面的能力依然比较有限。在实验中，研究人员发现该模型很难将多个属性绑定到不同对象，并且在用户要求生成多个3D建模时，Shap·E有时无法生成正确数量的对象。

除此之外，虽然Shap·E通常能够根据描述生成可是别的3D建模，但生成样本通常看起来略显粗糙或者缺少精致的细节，并且编码器本身有时就会丢失一些细节纹理。

为了获得更好的效果，研发人员正在计划尝试将Shap·E与基于优化的3D生成技术相结合。例如将Shep·E生成的NeRF或网格用于初始化基于优化的方法；或者将基于图像的物镜用于指导建模形状的取样过程。然而目前以上方式仍处于研发和测试过程。

有业内相关的算法工程师建议，这个项目的门槛较高，吃瓜群众还是别浪费时间跑了，而且效果目前也没有达到图片生成那种惊艳的效果，不能直接用来做一些素材的生产。

4、文生3D的未来

在ChatGPT引领人们进入AI2.0时代后，在极短的时间内，人们对AI的渴望便已经从简单的文本、图像扩展到了视频甚至三维领域。事实上，如今也已有不少科技企业正在朝向文生3D的领域迈进。

去年年底，NVIDIA研究院便发布了Magic3D文本生成3D模型，可以用于创建较高质量的三位网格模型，并支持图像生成和基于提示的图像编辑。谷歌也在数月前开放了自己的神经网络Imagen，其可以在不经过人工数据标注的情况下实现从文本描述生成三维模型，并能处理较为复杂的文本输入。

而就在近日，一款名为ChatAvatar的专注于人物面部文生3D模型的产品也已开启公测，并快速获得了70余万浏览与关注。截止目前，不少用户已经利用该产品创建出了逼真度极高的个人专属3D形象。

就目前而言，在以游戏、影视、建筑设计为代表的行业中，3D内容的生产与消费市场其实已经非常庞大，但在过去大量的内容生产受限于较高的技术要求，使得只有少部分具备专业技能的从业者能够参与其中，但随着文生3D模型及产品的逐渐成熟，这种情况将很有可能会被颠覆。

除此之外，尽管现阶段文生3D模型或衍生产品在建模细节和精度方面仍有所欠缺，但已有部分业内人士开始尝试将文生图工具如Midjourney与之结合，以改善所生成模型的细节质量。一旦将来文生3D建模的技术更加成熟，大量行业的产出和进化速度都将实现飞跃。

5、更广阔的想象空间

文生3D的研究是一个非常重要的方向，作为如今AI领域走在最前沿的探路者，OpenAI发布Shap·E可以说也在一定程度上证实了这个理论。

在文生3D领域，文本作为一种更通用且更简单的媒介，可以很好的表达和传播3D内容，使用户能够通过文本实现对大量三维内容的创作、修改及传播，为用户提供更加方便且友好的三维内容交互及共享机制。

高质量的文生3D模型在未来也将拥有非常广泛的应用场景，如游戏、动画、建筑、教育、医疗、娱乐等；包括VR/AR、3D打印等业务场景，文生3D工具都能够为其提供不容小觑的效率提升。

文生3D工具可以让没有复杂建模软件基础及设计能力的用户通过简单的文本描述生成自己所需的高质量的3D模型。而对于专业的建模师来说，此类模型或衍生工具的问世也将能够大幅提升其工作效率。

当然，这里可能有人会说“AI又将摧毁了一个行业”。但观察其他领域我们其实不难发现，像ChatGPT之于作家、Copilot之于程序员、Midjourney之于设计师，善用工具的人从来不会被时代淘汰，并且他们始终都能够走在大部分人的身前。

参考链接：

https://analyticsindiamag.com/openai-releases-shap-e-nerf-enabled-generative-model/

https://arxiv.org/pdf/2305.02463.pdf

https://www.163.com/dy/article/I474EGMT055240KW.html