Diff2Scene:无须3D标注,扩散模型如何颠覆开放词汇3D语义分割?

人工智能
Diff2Scene 是一种利用文本-图像扩散模型进行 开放词汇3D语义分割 的新方法,无需任何标注的3D数据,即可对 3D点云 进行语义理解,并在 ScanNet200 数据集上提升 12% 的 SOTA 性能。

一眼概览

Diff2Scene 是一种利用文本-图像扩散模型进行 开放词汇3D语义分割 的新方法,无需任何标注的3D数据,即可对 3D点云 进行语义理解,并在 ScanNet200 数据集上提升 12% 的 SOTA 性能。

核心问题

背景问题:传统 3D 语义分割依赖封闭集标签,无法处理新类别,且标注 3D 数据极其昂贵。现有 CLIP-based 方法在处理 细粒度类别和复杂文本查询 时表现不佳。核心挑战:如何在 无3D标注 的情况下,实现 开放词汇的 3D 语义分割和视觉锚定(visual grounding)应用价值:自动驾驶、机器人导航、AR/VR 场景解析等场景需要无监督、泛化性强的 3D 语义理解方法。

技术亮点

1. 扩散模型特征提取:使用 Stable Diffusion 预训练的 文本-图像生成模型 提取语义丰富的 2D 特征,比 CLIP 更擅长 局部特征表示,有利于密集预测任务。

2. 多模态掩码蒸馏(Mask Distillation):创新性地设计了 2D-3D 掩码蒸馏机制,通过 2D 语义掩码作为分类器 预测 3D 语义,增强了 3D 语义理解能力。

3. 零样本3D分割:完全 摒弃3D标注数据,仅使用 2D-3D 对应关系进行 无监督知识蒸馏,实现了端到端的 开放词汇 3D 语义分割

方法框架

图片

Diff2Scene 采用 双分支架构,结合 2D 语义理解 和 3D 几何感知,主要步骤如下:

1. 2D 语义解析

• 采用 Stable Diffusion U-Net 作为特征提取器,从 RGB 图像生成 2D 语义掩码(Salient-aware Masks)。

• 这些掩码包含了丰富的 文本-视觉信息,并作为 分类器 提供 3D 语义先验。

2. 3D 掩码预测

• 采用 稀疏 3D 卷积 U-Net 处理 点云数据,并结合 2D 掩码提升 3D 预测能力。

• 生成 几何感知掩码(Geometric-aware Masks),提取 3D 空间信息。

3. 多模态掩码蒸馏

• 2D 语义掩码 → 3D 语义掩码 迁移,保证 2D 和 3D 语义的一致性。

• 采用 余弦相似度损失(Cosine Similarity Loss)约束 2D 和 3D 掩码的分布一致性,实现 跨模态特征学习

4. 开放词汇推理

• 采用 融合推理策略,将 Stable Diffusion 的生成特征 和 CLIP 的判别特征 结合,实现 灵活的语义查询

实验结果速览

图片图片

Diff2Scene 在多个 3D 语义分割基准测试上超越 SOTA:

• ScanNet200(零样本设置)

a.整体 mIoU 提升 12%(从 34.2 → 46.2

b.尾类 mIoU 提升 2.6%(从 11.9 → 12.9

• Matterport3D:mIoU 提升 3.1%(从 42.6 → 45.5

• Replica(通用化测试):mIoU 提升 2.6%(从 14.9 → 17.5

• 视觉锚定任务(Nr3D)

    • 在 “红色短箱子”“带皱纹毛巾的架子” 等复杂文本查询任务中,Diff2Scene 比 OpenScene 预测更加精准。

实用价值与应用

Diff2Scene 完全摒弃了 3D 数据标注,在 真实世界开放环境 具有极大应用潜力:

• 自动驾驶:适用于 长尾类别 识别(例如罕见的路障、动物等)。

• 机器人感知:提供 无监督的 3D 物体定位,提升 环境理解能力

• 增强现实(AR):基于文本语义进行 3D 场景查询与交互,提升用户体验。

• 建筑和室内设计:支持 自然语言搜索 3D 物品,简化 室内规划 任务。

开放问题

1. 在极端长尾分布类别(如 ScanNet200 的“窗台”)上,Diff2Scene 仍然容易误分类,如何进一步提升其鲁棒性?

2. 当前方法依赖 2D 预训练模型,未来是否可以探索端到端的 3D 扩散模型,直接生成 3D 语义表示?

3. 扩散模型的生成特征对 3D 语义分割是否真的比 CLIP 判别特征更有效?是否可以进一步融合两者的优势?

责任编辑:武晓燕 来源: 萍哥学AI
相关推荐

2020-08-26 10:37:21

阿里3D

2024-03-20 15:51:00

AI数据

2011-09-22 10:07:52

奥图码投影仪

2024-12-10 09:40:00

AI3D模型

2023-12-07 13:07:59

3D模型训练

2023-08-18 08:00:00

游戏开发3D模型

2011-10-06 13:30:45

宏碁投影仪

2012-11-26 12:51:44

木材3D打

2011-05-03 11:07:46

2D3D丽讯

2011-05-26 10:05:07

优派投影机

2023-12-06 13:36:00

模型数据

2023-05-03 09:01:41

CanvasWebGL

2011-04-26 14:21:20

3DJVC投影机

2011-08-26 14:50:23

2012-08-13 17:11:37

Silverlight

2023-03-03 21:42:18

鸿蒙

2011-05-25 16:07:17

2022-05-23 10:26:10

人工智能机器学习机器视觉

2015-09-09 11:05:52

3d视差引导页

2021-12-28 10:52:10

鸿蒙HarmonyOS应用
点赞
收藏

51CTO技术栈公众号