Diffusion-SS3D：用扩散去噪革新半监督3D检测，伪标签更准，mAP提升6%！-51CTO.COM

1. 一眼概览

SemCity 是一种 基于三平面扩散（Triplane Diffusion） 的 3D 语义场景生成模型，能够在 真实户外环境 中进行 场景生成、语义补全、场景扩展（Outpainting）和修补（Inpainting），并在 SemanticKITTI 数据集 上显著提升生成质量。

2. 核心问题

背景问题：当前 3D 扩散模型大多专注于 单个物体 或 室内合成场景，对于 真实户外场景 仍然缺乏研究。此外，户外数据由于传感器局限性（空白区域较多），导致模型难以学习 完整的三维语义分布。核心挑战：如何在 稀疏、不完整的真实户外数据 中 生成完整、语义连贯的 3D 场景，并支持 对象添加、移除和扩展？应用价值：自动驾驶、智能城市建模、增强现实（AR）、机器人导航等都依赖 高质量 3D 语义场景生成，提高 环境理解能力。

3. 技术亮点

三平面扩散（Triplane Diffusion）建模：采用 Triplane 表示 作为代理表示，解决 真实户外场景数据稀疏问题，比 传统体素方法（Voxel-based） 更高效。
三平面编辑（Triplane Manipulation）：实现 无缝的对象添加、移除、修改，支持 场景修补（Inpainting）、扩展（Outpainting）和语义补全（SSC Refinement）。
高质量户外场景生成：在 SemanticKITTI 数据集上大幅提升场景生成质量，优于当前基于扩散的 3D 生成方法。

4. 方法框架

图片

SemCity 采用 三平面扩散模型（Triplane Diffusion），核心流程如下：

1）三平面编码（Triplane Encoding）：

• 采用 Triplane Autoencoder 将 3D 体素场景 转换为 三平面表示（xy、xz、yz）。

• 该表示减少了不必要的空白信息，提高 数据表示效率。

2）三平面扩散（Triplane Diffusion）：

• 通过 去噪扩散过程（Denoising Diffusion Probabilistic Models, DDPM）学习 三平面数据分布。

• 通过 反向扩散 生成 新的三平面，再解码成完整 3D 语义场景。

3）三平面编辑（Triplane Manipulation）：

• 场景修补（Inpainting）：在 3D 空间中无缝 去除或添加物体，增强 语义一致性。

• 场景扩展（Outpainting）：向四周扩展场景，可生成 城市级别 的 3D 场景。

• 语义补全（SSC Refinement）：优化 语义场景补全，提高 SSC 任务的 IoU 和 mIoU。

5. 实验结果速览

图片

SemCity 在 真实户外数据 上取得 最佳 3D 语义场景生成性能：

• SemanticKITTI（真实数据集）：

a.FID 下降 50%（从 112.82 → 56.55），表示生成场景更接近真实数据。

b.KID 下降 67%（从 0.12 → 0.04），生成质量更稳定。

c.mIoU 提升 6.64%，显著改善 语义一致性。

• CarlaSC（合成数据集）：

• FID 下降 54%（从 87.39 → 40.63），生成质量更高。

• KID 下降 78%，生成稳定性提升。

• SSC 任务提升：

• MonoScene + SemCity：mIoU 提升 5.58%（11.50 → 17.08）

• OccDepth + SemCity：mIoU 提升 3.95%（12.84 → 16.79）

• SCPNet + SemCity：mIoU 提升 0.64%（37.55 → 38.19）

• SSA-SC + SemCity：mIoU 提升 1.04%（24.54 → 25.58）

6. 实用价值与应用

SemCity 提供了 高效、灵活的真实户外 3D 语义场景生成，适用于多个领域：

• 自动驾驶 🚗：提升 3D 语义理解，帮助 感知系统 处理 不完整的激光雷达数据。

• 智能城市建模 🏙️：支持 城市级别 3D 场景生成，用于 数字孪生（Digital Twin） 和 城市规划。

• 机器人导航 🤖：提高 机器人在复杂环境中的导航能力，增强 自主感知。

• 增强现实（AR/VR） 🎮：在 AR/VR 应用 中创建 更真实的交互式 3D 场景。

开放问题

1. SemCity 在极端场景（如夜间或大雾环境）下的生成质量如何？

2. 三平面扩散的语义理解能力能否推广到室内 3D 场景？

3. 如何进一步提升 SemCity 处理细粒度对象（如小型路牌）的能力？

4. 三平面扩散模型是否可以与 NeRF 结合，提升 3D 生成质量？