Diffusion-SS3D:用扩散去噪革新半监督3D检测,伪标签更准,mAP提升6%!

人工智能
SemCity 是一种 基于三平面扩散(Triplane Diffusion) 的 3D 语义场景生成模型,能够在真实户外环境 中进行 场景生成、语义补全、场景扩展(Outpainting)和修补(Inpainting),并在 SemanticKITTI 数据集 上显著提升生成质量。

1. 一眼概览

SemCity 是一种 基于三平面扩散(Triplane Diffusion) 的 3D 语义场景生成模型,能够在 真实户外环境 中进行 场景生成、语义补全、场景扩展(Outpainting)和修补(Inpainting),并在 SemanticKITTI 数据集 上显著提升生成质量。

2. 核心问题

背景问题:当前 3D 扩散模型大多专注于 单个物体 或 室内合成场景,对于 真实户外场景 仍然缺乏研究。此外,户外数据由于传感器局限性(空白区域较多),导致模型难以学习 完整的三维语义分布核心挑战:如何在 稀疏、不完整的真实户外数据 中 生成完整、语义连贯的 3D 场景,并支持 对象添加、移除和扩展应用价值:自动驾驶、智能城市建模、增强现实(AR)、机器人导航等都依赖 高质量 3D 语义场景生成,提高 环境理解能力

3. 技术亮点

  • 三平面扩散(Triplane Diffusion)建模:采用 Triplane 表示 作为代理表示,解决 真实户外场景数据稀疏问题,比 传统体素方法(Voxel-based) 更高效。
  • 三平面编辑(Triplane Manipulation):实现 无缝的对象添加、移除、修改,支持 场景修补(Inpainting)、扩展(Outpainting)和语义补全(SSC Refinement)
  • 高质量户外场景生成:在 SemanticKITTI 数据集上大幅提升场景生成质量,优于当前基于扩散的 3D 生成方法。

4. 方法框架

图片图片

SemCity 采用 三平面扩散模型(Triplane Diffusion),核心流程如下:

1)三平面编码(Triplane Encoding)

• 采用 Triplane Autoencoder 将 3D 体素场景 转换为 三平面表示(xy、xz、yz)

• 该表示减少了不必要的空白信息,提高 数据表示效率

2)三平面扩散(Triplane Diffusion)

• 通过 去噪扩散过程(Denoising Diffusion Probabilistic Models, DDPM)学习 三平面数据分布

• 通过 反向扩散 生成 新的三平面,再解码成完整 3D 语义场景

3)三平面编辑(Triplane Manipulation)

• 场景修补(Inpainting):在 3D 空间中无缝 去除或添加物体,增强 语义一致性

• 场景扩展(Outpainting)向四周扩展场景,可生成 城市级别 的 3D 场景。

• 语义补全(SSC Refinement):优化 语义场景补全,提高 SSC 任务的 IoU 和 mIoU

5. 实验结果速览

图片图片

SemCity 在 真实户外数据 上取得 最佳 3D 语义场景生成性能

• SemanticKITTI(真实数据集)

a.FID 下降 50%(从 112.82 → 56.55),表示生成场景更接近真实数据。

b.KID 下降 67%(从 0.12 → 0.04),生成质量更稳定。

c.mIoU 提升 6.64%,显著改善 语义一致性

• CarlaSC(合成数据集)

• FID 下降 54%(从 87.39 → 40.63),生成质量更高。

• KID 下降 78%,生成稳定性提升。

• SSC 任务提升

• MonoScene + SemCity:mIoU 提升 5.58%(11.50 → 17.08

• OccDepth + SemCity:mIoU 提升 3.95%(12.84 → 16.79

• SCPNet + SemCity:mIoU 提升 0.64%(37.55 → 38.19

• SSA-SC + SemCity:mIoU 提升 1.04%(24.54 → 25.58

6. 实用价值与应用

SemCity 提供了 高效、灵活的真实户外 3D 语义场景生成,适用于多个领域:

• 自动驾驶 🚗:提升 3D 语义理解,帮助 感知系统 处理 不完整的激光雷达数据

• 智能城市建模 🏙️:支持 城市级别 3D 场景生成,用于 数字孪生(Digital Twin) 和 城市规划

• 机器人导航 🤖:提高 机器人在复杂环境中的导航能力,增强 自主感知

• 增强现实(AR/VR) 🎮:在 AR/VR 应用 中创建 更真实的交互式 3D 场景

开放问题

1. SemCity 在极端场景(如夜间或大雾环境)下的生成质量如何?

2. 三平面扩散的语义理解能力能否推广到室内 3D 场景?

3. 如何进一步提升 SemCity 处理细粒度对象(如小型路牌)的能力?

4. 三平面扩散模型是否可以与 NeRF 结合,提升 3D 生成质量?

责任编辑:武晓燕 来源: 萍哥学AI
相关推荐

2023-12-07 13:07:59

3D模型训练

2023-12-29 13:18:23

模型NeRFTICD

2025-02-13 08:26:26

2023-11-17 09:55:41

2011-10-06 13:30:45

宏碁投影仪

2021-09-16 07:52:18

SwiftUScroll效果

2012-11-26 12:51:44

木材3D打

2023-09-27 09:59:53

自动驾驶训练

2013-07-31 14:19:06

Windows 8.1

2011-05-26 10:05:07

优派投影机

2011-09-22 10:07:52

奥图码投影仪

2015-01-19 17:44:02

Cocos引擎3D特效

2011-08-26 14:50:23

2011-04-26 14:21:20

3DJVC投影机

2011-05-25 16:07:17

2012-08-13 17:11:37

Silverlight

2023-03-03 21:42:18

鸿蒙

2015-09-09 11:05:52

3d视差引导页

2021-12-28 10:52:10

鸿蒙HarmonyOS应用

2020-08-26 10:37:21

阿里3D
点赞
收藏

51CTO技术栈公众号