1. 一眼概览
SemCity 是一种 基于三平面扩散(Triplane Diffusion) 的 3D 语义场景生成模型,能够在 真实户外环境 中进行 场景生成、语义补全、场景扩展(Outpainting)和修补(Inpainting),并在 SemanticKITTI 数据集 上显著提升生成质量。
2. 核心问题
背景问题:当前 3D 扩散模型大多专注于 单个物体 或 室内合成场景,对于 真实户外场景 仍然缺乏研究。此外,户外数据由于传感器局限性(空白区域较多),导致模型难以学习 完整的三维语义分布。核心挑战:如何在 稀疏、不完整的真实户外数据 中 生成完整、语义连贯的 3D 场景,并支持 对象添加、移除和扩展?应用价值:自动驾驶、智能城市建模、增强现实(AR)、机器人导航等都依赖 高质量 3D 语义场景生成,提高 环境理解能力。
3. 技术亮点
- 三平面扩散(Triplane Diffusion)建模:采用 Triplane 表示 作为代理表示,解决 真实户外场景数据稀疏问题,比 传统体素方法(Voxel-based) 更高效。
- 三平面编辑(Triplane Manipulation):实现 无缝的对象添加、移除、修改,支持 场景修补(Inpainting)、扩展(Outpainting)和语义补全(SSC Refinement)。
- 高质量户外场景生成:在 SemanticKITTI 数据集上大幅提升场景生成质量,优于当前基于扩散的 3D 生成方法。
4. 方法框架
图片
SemCity 采用 三平面扩散模型(Triplane Diffusion),核心流程如下:
1)三平面编码(Triplane Encoding):
• 采用 Triplane Autoencoder 将 3D 体素场景 转换为 三平面表示(xy、xz、yz)。
• 该表示减少了不必要的空白信息,提高 数据表示效率。
2)三平面扩散(Triplane Diffusion):
• 通过 去噪扩散过程(Denoising Diffusion Probabilistic Models, DDPM)学习 三平面数据分布。
• 通过 反向扩散 生成 新的三平面,再解码成完整 3D 语义场景。
3)三平面编辑(Triplane Manipulation):
• 场景修补(Inpainting):在 3D 空间中无缝 去除或添加物体,增强 语义一致性。
• 场景扩展(Outpainting):向四周扩展场景,可生成 城市级别 的 3D 场景。
• 语义补全(SSC Refinement):优化 语义场景补全,提高 SSC 任务的 IoU 和 mIoU。
5. 实验结果速览
图片
SemCity 在 真实户外数据 上取得 最佳 3D 语义场景生成性能:
• SemanticKITTI(真实数据集):
a.FID 下降 50%(从 112.82 → 56.55),表示生成场景更接近真实数据。
b.KID 下降 67%(从 0.12 → 0.04),生成质量更稳定。
c.mIoU 提升 6.64%,显著改善 语义一致性。
• CarlaSC(合成数据集):
• FID 下降 54%(从 87.39 → 40.63),生成质量更高。
• KID 下降 78%,生成稳定性提升。
• SSC 任务提升:
• MonoScene + SemCity:mIoU 提升 5.58%(11.50 → 17.08)
• OccDepth + SemCity:mIoU 提升 3.95%(12.84 → 16.79)
• SCPNet + SemCity:mIoU 提升 0.64%(37.55 → 38.19)
• SSA-SC + SemCity:mIoU 提升 1.04%(24.54 → 25.58)
6. 实用价值与应用
SemCity 提供了 高效、灵活的真实户外 3D 语义场景生成,适用于多个领域:
• 自动驾驶 🚗:提升 3D 语义理解,帮助 感知系统 处理 不完整的激光雷达数据。
• 智能城市建模 🏙️:支持 城市级别 3D 场景生成,用于 数字孪生(Digital Twin) 和 城市规划。
• 机器人导航 🤖:提高 机器人在复杂环境中的导航能力,增强 自主感知。
• 增强现实(AR/VR) 🎮:在 AR/VR 应用 中创建 更真实的交互式 3D 场景。
开放问题
1. SemCity 在极端场景(如夜间或大雾环境)下的生成质量如何?
2. 三平面扩散的语义理解能力能否推广到室内 3D 场景?
3. 如何进一步提升 SemCity 处理细粒度对象(如小型路牌)的能力?
4. 三平面扩散模型是否可以与 NeRF 结合,提升 3D 生成质量?