鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

账号设置退出

大卫复活！英伟达再造「神经朗基罗」，3D重建肌肉纹理肉眼可见

作者：新智元 2023-06-02 13:47:44

人工智能新闻

16世纪的米开朗基罗重生了！英伟达团队提出Neuralangelo，从2D视频重建3D大规模场景，将5.5米大卫雕像完美复刻。

今天，英伟达再造了16世纪的米开朗基罗「Neuralangelo」。

快看，Neuralangelo「复刻」出3D版的著名雕像大卫，大理石的细节、纹理栩栩如生。

要知道，收藏在佛罗伦萨美术学院的大卫雕像，仅身高3.96米，加上基座都有5.5米。

它甚至可以重建一栋建筑物的内外部结构，屋顶瓦片、玻璃窗格、还有各种细节都一一再现。

这一切，都是「神经朗基罗」（Neuralangelo）的魔法。

来自英伟达和约翰霍普金斯大学的研究人员提出的新型AI模型，利用神经网络重建3D物体。

最新研究已被CVPR 2023录用。

论文地址：https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf

特别是，Neuralangelo可以从手机视频，无人机拍摄的视频重建「高保真的大规模场景」。

那岂不是未来，就能轻易地把一座城市、甚至外太空的视频，变成一个沉浸式的世界，再装进游戏去体验。

网友惊呼，英伟达黑了「矩阵」世界！

甚至，还有人称，苹果XR技术，再加上Neuralangelo，就能创造「new worlds」了。

效果演示

英伟达的总部

破旧的卡车

Ignatius的雕像

重建3D场景

以前的AI模型在重建3D场景时，往往难以准确捕捉到重复的纹理模式、均匀的颜色以及强烈的色彩变化。

为此，团队提出了一个将多分辨率3D哈希网格的表征能力和神经表面渲染相结合的全新方法——Neuralangelo。

去年，英伟达研究人员曾创造了一种新工具3D MoMa，将照片变成3D物体易如反掌。

NeuralAngelo建立在这一概念的基础上，允许导入更大、更详细的空间和对象。而它特别之处在于，可以准确捕捉重复的纹理模式、同质的颜色和强烈的颜色变化。

通过采用「即时神经图形基元」，也就是NVIDIA Instant NeRF技术的核心，Neuralangelo由此可以捕捉更细微的细节。

团队的方法依赖于2个关键要素：

（1）用于计算高阶导数作为平滑操作的数值梯度；

（2）在控制不同细节级别的哈希网格上进行由粗到细的优化。

即使没有辅助深度，Neuralangelo也能有效地从多视图图像中恢复密集3D表面结构，其保真度显著超过了以往的方法，使得能够从RGB视频捕捉中重建详细的大规模场景。

构建NeuralAngelo

NeuralAngelo模型是在多分辨率哈希编码，以及基于SDF的体积渲染上进行构建。

第一步：使用数值梯度来计算高阶导数

通过使用与哈希网格空间分辨率匹配的步长的数值梯度，可以优化超越局部单元。与解析梯度相比，数值梯度对SDF起到了平滑操作的作用。

第二步：逐步细化细节层次

通过逐步减小数值梯度的步长，并启用更高分辨率的哈希网格，优化的效果可以更好地恢复大面积的光滑表面和精细的几何细节。这种学习过程能够逐步提高细节的层次感。

第三步：优化

NeuralAngelo使用三个优化目标：

RGB合成损失

：输入图像和合成图像之间的RGB重建损失。

Eikonal损失

：对底层SDF进行正则化处理，使其表面法线为单位正则。

曲率损失

：对底层SDF进行正则化处理，使平均曲率不会任意变大。

「神经朗基罗」构建好了，那么它又是如何运作的呢？

可以说，Neuralangelo还原了米开朗基罗刻画大卫的整个过程：

· 首先，模型会从2D视频中选择几帧从不同角度拍摄的物体/场景的画面，并由此「看到」其深度、大小和形状。这个过程就像雕塑艺术家一开始会从多个角度构图那样。

· 然后，模型会创建一个粗糙的3D场景表征，就像艺术家开始凿刻主体的形状。

· 最后，模型会优化渲染以提高细节的清晰度，就像艺术家通过精心地修饰来模仿织物或人形的纹理。

在DPU基准定性比较中， Neuralangelo产生更准确和更高保真度的表面。

如下是Neuralangelo在DTU数据集中的定量结果，模型获得了很好的重建精度和图像合成质量。

在不同的从粗糙到精细优化方案定性比较中，当使用分析梯度AG和AG+P，物体粗糙表面还有伪影。

当使用数字梯度（NG）时，能够重建一个比较好的粗糙表面，细节也被平滑。

而英伟达的解决方案（NG+P）能够生成光滑的表面，以及精细的细节。

最终的结果是一个可以在虚拟现实应用、数字孪生或机器人开发中使用的3D物体或大规模场景。

英伟达表示，Neuralangelo将复杂材料的纹理，包括屋顶瓦片的粗糙度、大理石的光滑度，从2D视频转化为3D物体的能力，显著超越了以往的方法。

英伟达研究部高级主任、论文作者Ming-Yu Liu对这项研究的意义给出了畅想：

「Neuralangelo提供的3D重建能力将给创作者带来巨大好处，帮助他们在数字世界中重建真实世界。这个工具最终将使开发人员能够将精细的物体——不论是小型雕像，还是大型建筑——导入视频游戏或工业数字孪生的虚拟环境中。

创意的专业人士可以将这些3D对象导入到设计应用中，进一步编辑，以供艺术、电子游戏开发、机器人技术和工业数字孪生等领域使用。

作者介绍

Zhaoshuo Li（李赵硕）

李赵硕目前还是约翰霍普金斯大学的计算机科学博士生，导师是Mathias Unberath教授、Russell H Taylor教授。

他对计算机视觉、计算机图形学、深度学习有浓厚的兴趣，研究重点是从图像中重现运动和结构。

另外，他还有非常多的爱好，是摄像师、心理健康促进者、宠物狗的爱好者、还是冲浪者、跳伞者、滑雪板运动员…

Chen-Hsuan Lin

Chen-Hsuan Lin是NVIDIA Research的一名研究科学家，从事计算机视觉、计算机图形学和人工智能方面的工作。

他在卡内基梅隆大学获得了机器人学博士学位，并获得英伟达研究生奖学金。此前，他还在Facebook AI Research和Adobe Research实习。

Lin对解决3D重建、视图合成和3D内容生产的问题非常感兴趣。其研究旨在通过从互联网规模的视觉数据中学习，赋予人工智能系统人类水平的3D感知和想象能力，向真正的3D空间智能迈进。

网友热评

英伟达科学家Jim Fan表示，

为了让你了解3D建模的人工智能发展速度：该领域在3年内从左边（原始的NeRF重建的网格）到右边（英伟达的Neuralangelo）。

将现实传送到高保真模拟中不再是一个梦想。

新的Neuralangelo模型简直是一个野兽，英伟达决定淘汰我们，R.I.P.摄影测量软件。

简直就像数字世界的「米开朗基罗」。

还有网友表示想知道，用它的成本是多少？

我们可以在工厂使用无人机，然后将视频发送到这个模型，做一个数字孪生，并使用它来优化我们的流程。

对于这项技术的意义，网友认为这对游戏行业来说影响将是巨大的。

责任编辑：张燕妮来源：新智元

51CTO技术栈公众号

业务
速览

媒体

51CTO CIOAge HC3i

社区

51CTO博客鸿蒙开发者社区 AI.x社区

教育

51CTO学堂精培企业培训 CTO训练营