可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!

发布于 2024-9-5 12:18
浏览
0收藏

可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区

文章链接:https://arxiv.org/pdf/2408.16768
在线demo: https://huggingface.co/spaces/ZiyuG/SAM2Point
code链接:https://github.com/ZiyuGuo99/SAM2Point

可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区

亮点直击

  1. 无投影 3D 分割:SAM2POINT 通过将 3D 数据体素化为视频格式,避免了复杂的 2D-3D 投影,实现了高效的零样本 3D 分割,同时保留了丰富的空间信息。
  2. 多样的提示支持:该方法支持 3D 点、3D框和mask三种提示类型,实现了灵活的交互式分割,增强了 3D 分割的精确度和适应性。
  3. 强大的泛化能力:SAM2POINT 在多种 3D 场景中表现出优越的泛化能力,包括单个物体、室内场景、室外场景和原始 LiDAR 数据,显示了良好的跨领域转移能力。


今天和小伙伴们一起学习的是SAM2POINT,这是一种初步探索,是将 Segment Anything Model 2 (SAM 2) 适配于零样本和可提示的3D分割。SAM2POINT 将任何 3D 数据解释为一系列多方向视频,并利用 SAM2 进行3D空间分割,无需进一步训练或 2D-3D 投影。框架支持多种提示类型,包括 3D 点、3D框和mask,并且可以在各种场景中进行泛化,例如 3D 单个物体、室内场景、室外场景和原始 LiDAR。在多个 3D 数据集上的演示,如 Objaverse、S3DIS、ScanNet、Semantic3D 和 KITTI,突出了 SAM2POINT 的强大泛化能力。本方法展示了 SAM 在 3D 中的最忠实实现,这可能成为未来可提示 3D 分割研究的起点。

效果展示

下图 3到图7 展示了 SAM2POINT 在使用不同 3D 提示对不同数据集进行 3D 数据分割的演示。

可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区

可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区

可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区

可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区

可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区

SAM2Point的3D物体的多方向视频:


可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区



可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区



可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区


SAM2Point的3D室内场景多方向视频:


可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区



可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区



可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区


SAM2Point的3D室外场景多方向视频:


可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区



可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区



可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区


SAM2Point的3D原始激光雷达的多方向视频:


可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区



可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区



可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区


SAM2POINT

SAM2POINT 的详细方法如下图 2 所示。下面介绍了 SAM2POINT 如何高效地将 3D 数据格式化以兼容 SAM 2,从而避免复杂的投影过程。接下来,以及详细说明了支持的三种 3D 提示类型及其相关的分割技术。最后,展示了 SAM2POINT 有效解决的四种具有挑战性的 3D 场景。

可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区

3D 数据作为视频

可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!-AI.x社区

任意 3D 场景

凭借简洁的框架设计,SAM2POINT 在各种领域中表现出优越的零样本泛化能力,从对象到场景、从室内到室外场景。在下文中详细阐述了四种不同的 3D 场景:

  • 3D 单个物体,如 Objaverse,具有多种类别,具有不同实例的独特特征,包括颜色、形状和几何结构。对象的相邻组件可能会重叠、遮挡或融合,这要求模型准确识别细微差别以进行部分分割。
  • 室内场景,如 S3DIS和 ScanNet,通常具有多个在封闭空间内(如房间)排列的对象。复杂的空间布局、外观相似性和对象间的不同方向给模型从背景中分割这些对象带来挑战。
  • 室外场景,如 Semantic3D,与室内场景不同,主要由于对象的大小对比明显(建筑物、车辆和人)和点云的尺度更大(从一个房间到整个街道)。这些变化使得在全球尺度或细粒度水平上分割对象变得复杂。
  • 原始 LiDAR,如 KITTI在自动驾驶中,与典型点云不同,其分布稀疏且缺乏 RGB 信息。稀疏性要求模型推断缺失的语义以理解场景,且缺乏颜色迫使模型仅依靠几何线索区分对象。在 SAM2POINT 中,直接通过 LiDAR 强度设置 3D 体素的 RGB 值。

总结展望

SAM2Point,利用 Segment Anything 2 (SAM 2) 实现 3D 分割,采用零样本和可提示框架。通过将 3D 数据表示为多方向视频,SAM2POINT 支持多种类型的用户提供的提示(3D 点、框和mask),并在多种 3D 场景(3D 单个物体、室内场景、室外场景和原始稀疏 LiDAR)中展示了强大的泛化能力。作为初步探索,SAM2POINT 提供了关于将 SAM 2 适配于有效和高效的 3D 理解的独特见解。希望本文的方法能够作为可提示 3D 分割的基础基准,鼓励进一步研究以充分发挥 SAM 2 在 3D 领域的潜力。


本文转自 AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/TnTK5UE7O_hcrNzloxBmAw​

标签
收藏
回复
举报
回复
相关推荐