CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

人工智能 新闻
尽管模型表现优异,MIDI 研发团队深知仍有许多值得提升和探索的方向。

本文的主要作者来自 VAST、北京航空航天大学、清华大学和香港大学。本文的第一作者为北京航空航天大学硕士生黄泽桓,主要研究方向为生成式人工智能和三维视觉。本文的通讯作者为 VAST 首席科学家曹炎培和北京航空航天大学副教授盛律。

在 Sora 引爆世界模型技术革命的当下,3D 场景作为物理世界的数字基座,正成为构建动态可交互 AI 系统的关键基础设施。当前,单张图像生成三维资产的技术突破,已为三维内容生产提供了 "从想象到三维" 的原子能力。

然而,当技术演进到组合式场景生成维度时,单物体生成范式的局限性开始凸显:现有方法生成的 3D 资产如同散落的 "数字原子",难以自组织成具有合理空间关系的 "分子结构"。这导致几个核心挑战:① 实例分离困境(如何从单视图准确解耦交叠物体)② 物理约束建模(如何避免穿模的不合理交互)③ 场景级语义理解(如何保持物体功能与空间布局的一致性)。这些瓶颈严重制约着从 "数字原子" 到 "可交互世界" 的构建效率。

最近,来自北航、VAST 等机构的研究团队推出了全新的模型 —— MIDI,它能够从单张图像生成高几何质量、实例可分离的 3D 组合场景,在单视图 3D 场景生成领域取得了突破性进展,为可交互世界生成奠定基础。

图片

技术突破:从单张图像到三维组合场景的关键创新

传统的组合式 3D 场景重建技术往往依赖于多阶段的逐个物体生成和场景优化,流程冗长且生成的场景往往几何质量低、空间布局不准确。为解决这些问题,MIDI (Multi-Instance Diffusion Model)创新性地利用了三维物体生成模型,将其扩展为多实例扩散模型,能够同时生成具有精确空间关系的多个 3D 实例,实现了高效高质量的 3D 场景生成:

  1. 单物体到多实例生成的跨越:通过同时去噪多个 3D 实例的潜在表示,并在去噪过程中引入多实例标记之间的交互,MIDI 将 3D 物体生成模型扩展至同时生成有交互建模的多实例,而后直接组合为 3D 场景。
  2. 多实例自注意力机制:通过将物体生成模型的自注意力扩展至多实例自注意力,MIDI 在生成过程中有效捕获实例间的空间关联和整体场景的连贯性,而无需逐场景的布局优化。
  3. 训练阶段的数据增强:通过使用有限的场景数据监督 3D 实例间的交互,同时结合物体数据进行增强训练,MIDI 有效建模场景布局的同时保持了预训练的泛化能力。

效果展示

基于单张图像,MIDI 可以生成高质量的组合式 3D 场景:


在线演示

卓越性能:在几何质量和空间布局等多个维度上表现突出

MIDI 的主要特点在于其精确的空间布局建模、卓越的几何生成质量、生成的高效性和广泛的适用性。实验结果显示,该模型在多个数据集上的表现超越现有方法,包括 3D 实例间的空间关系、3D 实例生成的几何质量、以及端到端的生成速度均取得了优异的表现。

图片

应用场景:3D 场景内容创作的新工具

MIDI 的出现为 3D 场景的创作提供了一种崭新的解决方案。在建筑设计、虚拟现实、影视特效以及游戏开发等领域,该技术展现了广阔的应用潜力。通过具备高准确度、高几何质量的 3D 场景生成能力,MIDI 能够满足复杂场景中对高质量内容的需求,为创作者带来更多可能性。

未来展望

尽管模型表现优异,MIDI 研发团队深知仍有许多值得提升和探索的方向。例如,进一步优化对复杂交互场景的适配能力、提升物体生成的精细度等,都是未来努力的重点。希望通过不断改进和完善,让这一研发思路不仅推动单视图生成组合 3D 场景技术的进步,也能为 3D 技术在实际应用中的广泛普及贡献力量。

责任编辑:张燕妮 来源: 机器之心
相关推荐

2024-12-18 15:20:00

视图生成AI

2023-06-08 14:09:00

研究训练

2024-09-10 12:11:18

2023-03-21 09:19:42

技术图像

2020-03-30 16:00:46

开源技术 趋势

2023-06-02 13:35:11

AI检索

2024-07-17 09:03:56

2025-01-16 10:11:58

2021-08-13 15:07:02

模型人工智能深度学习

2020-10-25 11:28:12

开源端到端流水线

2013-06-17 10:37:54

产品设计移动设计产品规划

2019-06-18 09:09:31

C端B端产品设计

2009-08-19 11:04:53

令牌端到端加密安全比较

2022-01-25 10:04:24

图像模型AI

2022-09-09 15:40:57

Blender开源三维图形

2017-01-05 20:11:34

大数据技术审计系统

2021-09-09 14:53:15

物联网安全端到端安全物联网

2023-02-20 10:15:00

云协同边缘

2009-06-12 15:35:36

直播
点赞
收藏

51CTO技术栈公众号