本文经自动驾驶之心公众号授权转载,转载请联系出处。
写在前面&笔者的个人理解
随着大型语言模型(LLM)的发展,它们与3D空间数据(3D LLM)之间的集成取得了快速进展,为理解物理空间和与物理空间交互提供了前所未有的能力。本文全面概述了LLM处理、理解和生成3D数据的方法。我们强调了LLM的独特优势,如上下文学习、逐步推理、开放词汇能力和广泛的世界知识,强调了它们在嵌入式人工智能(AI)系统中显著推进空间理解和互动的潜力。我们的研究涵盖了从点云到神经辐射场(NeRF)的各种3D数据表示。并分析它们与LLM的集成,用于3D场景理解、字幕、问答和对话等任务,以及用于空间推理、规划和导航的基于LLM的代理。本文还简要回顾了其他将3D和语言相结合的方法,进一步揭示了相关重大进展,但强调了利用3D LLM的全部潜力的新方法的必要性。因此通过这篇论文,我们旨在为未来的研究制定一条路线,探索和扩展3D LLM在理解复杂的3D世界和与之互动方面的能力。
开源链接:https://github.com/ActiveVisionLab/Awesome-LLM-3D
相关背景
本节提供有关三维表示、大型语言模型(LLM)、二维视觉语言模型(VLM)和视觉基础模型(VFM)的基本背景知识。
3D表示
选择3D表示来描述、建模和理解我们的世界是一个至关重要的主题,有助于理解3D LLM的当前进展。它也是计算机视觉的一个基础研究领域。由于深度学习、计算资源和3D数据可用性的进步,该领域最近出现了大幅增长。我们简要介绍目前使用的最常见的三维表示。
点云:用空间中的一组数据点表示三维形状,将每个点的位置存储在三维笛卡尔坐标系中。除了存储位置之外,还可以存储每个点的其他信息(例如颜色、法线)。基于点云的方法以其低存储占用空间而闻名,但缺乏表面拓扑信息。获取点云的典型来源包括激光雷达传感器、结构光扫描仪、飞行时间相机、立体视图、摄影测量等。
体素网格:由三维空间中的单位立方体组成,类似于二维空间中的像素表示。每个体素最低限度地编码占用信息(二进制或概率地),但可以附加地编码到表面的距离,如在有符号距离函数(SDF)或截断符号距离函数(TSDF)中。然而当需要高分辨率的细节时,内存占用可能会变得过多。
多边形网格:表示由顶点和曲面组成,可以紧凑地描述复杂的三维形状。然而,它们的非结构化和不可微性质在将它们与神经网络集成以实现端到端可微管道方面带来了挑战。解决这个问题的一些解决方案,例如基于梯度近似的方法,只能使用手工制作的梯度计算。其他解决方案,如可微分光栅化器,可能会导致不精确的渲染结果,如内容模糊。
近年来,神经场在3D研究界引起了越来越多的兴趣,与依赖于几何图元的传统表示不同。神经场是从空间坐标到场景属性(如占用、颜色、辐射等)的映射,但与体素网格不同的是,在神经场中,映射是一个学习函数,通常是多层感知器。通过这种方式,神经场隐含地学习紧凑、连续和可微分的3D形状和场景表示。
一组神经领域专注于隐式表面表示。占用网络在由神经网络表示的连续3D占用函数中对形状进行编码,使用来自点云、低分辨率体素或图像的3D点位置和特征来估计占用概率。同时,深度SDF网络使用神经网络从三维坐标和潜在向量估计SDF。最近的方法,如NeuS和NeuS2,显著提高了静态和动态目标的表面重建保真度和效率。
另一组被称为神经辐射场(NeRF)的方法显示了强大的3D世界真实感渲染能力。这些方法使用位置编码技术对场景细节进行编码,并利用MLP来预测相机光线的辐射值(颜色和不透明度)。然而,MLP推断空间中每个采样点(包括空空间中的采样点)的颜色和占用细节的必要性需要大量的计算资源。因此,有强烈的动机来减少NeRF的实时应用程序的计算开销。
混合表示试图将NeRF技术与传统的基于体积的方法相结合,促进高质量的实时渲染。例如,将体素网格或多分辨率哈希网格与神经网络相结合,大大减少了NeRF的训练和推理时间。
3D高斯散射是点云的一种变体,其中每个点都包含额外的信息,表示该点周围的空间区域中发射的辐射为各向异性的3D高斯“斑点”。这些3D高斯通常是从SfM点云初始化的,并使用可微分渲染进行优化。3D高斯散射通过利用高效的光栅化而非光线追踪,以NeRF计算的一小部分实现了最先进的新型视图合成。
LLM
传统的自然语言处理(NLP)包含了广泛的任务,旨在使系统能够理解、生成和操作文本。NLP的早期方法依赖于基于规则的系统、统计模型和早期的神经结构(如递归神经网络)等技术。最近引入的大型语言模型(LLM)采用了transformer架构和在大量文本语料库上进行训练,取得了前所未有的性能,并在该领域引发了新的热潮。由于本文的重点是三维LLM,我们在这里提供了LLM的相关背景知识。为了深入探索LLM,我们参考了该地区的最新调查。
LLM结构
在LLM的上下文中,“编码器-解码器”和“仅解码器”架构主要用于NLP任务。
- Encoder-decoder architectures;
- Decoder-only architectures;
- Tokenization:标记化是一种将输入文本分解为标记序列的预处理方法,标记序列是语言模型中的基本数据单元。令牌的数量是有限的,每个令牌可以对应一个单词、子单词或单个字母。在推理过程中,输入文本被转换为令牌序列,并被馈送到模型,模型预测输出令牌,然后将输出令牌转换回文本。标记化对语言模型的性能有很大影响,因为它影响了模型对文本的感知。使用了各种标记化技术,例如单词级标记化、子单词标记化(例如字节对编码、WordPiece、PencePiece)和字符级标记化。
LLM Emergent Abilities
LLM和传统的非LLM方法之间的一个主要区别是在大模型中可用但在小模型中不存在的涌现能力。术语“应急能力”是指随着LLM规模和复杂性的扩大而产生的新的复杂能力。这些能力使人们能够深入理解和生成自然语言,在没有特定训练的情况下解决各个领域的问题,并通过情境学习适应新任务。在下文中,我们将介绍LLM范围内的几种常见涌现能力。
上下文学习是指LLM根据提示中提供的上下文理解和响应新任务或查询的能力,而不需要明确的再培训或微调。里程碑论文(GPT-2/GPT-3)以多镜头的方式展示了上下文学习,其中向模型提供提示中的几个任务示例,然后要求其在没有事先明确训练的情况下处理不同的示例。最先进的LLM,如GPT-4,表现出非凡的上下文学习能力,理解复杂的指令,并执行从简单翻译到生成代码和创造性写作的广泛任务,所有这些都基于提示中提供的上下文。
LLM中的推理,通常被称为“思维链”提示,涉及到在处理复杂问题或问题时生成中间步骤或推理路径的模型。这种方法允许LLM将任务分解为更小、可管理的部分,从而促进更结构化和更易于理解的解决方案过程。为了实现这一点,训练涉及数据集,其中包括各种解决问题的任务、逻辑谜题和旨在模拟不确定性下推理的数据集。当前最先进的LLM通常在模型大小大于60B到100B的参数时表现出高级推理能力。
指令遵循是指模型理解和执行命令的能力,或按照用户指定的指令执行的能力。这包括解析指令,理解其意图,并生成适当的响应或操作。用于使这种能力适应新任务的方法可能需要来自包含与正确响应或动作配对的各种指令的数据集的指令调整。监督学习、来自人类反馈的强化学习和互动学习等技术可以进一步提高绩效。
LLM Fine-tuning
在3D LLM的背景下,LLM要么在其预训练状态下直接使用,要么进行微调以适应新的多模式任务。然而,由于涉及大量的参数,对LLM的整个参数进行微调会带来显著的计算和内存挑战。因此,通过仅更新模型参数的相对较小的子集而不是重新训练整个模型,参数有效微调(PEFT)在使LLM适应特定任务方面变得越来越流行。以下部分列出了LLM中使用的四种常见PEFT方法。
低秩自适应(LoRA)和变体通过低秩矩阵更新参数。从数学上讲,在微调期间LoRA的正向通过可以表示为h=W0x+BAx。W0是LLM的冻结权重,而BA是由在微调阶段更新的新引入的矩阵a和B参数化的低秩矩阵。这种方法有几个明显的好处。在微调过程中,只有B和A被优化,显著减少了与梯度计算和参数更新相关的计算开销。一旦微调结束并合并权重,与原始模型相比就没有额外的推理成本,如方程所示:h=(W0+BA)x。此外,不需要为不同的任务保存LLM的多个副本,因为可以保存多个LoRA实例,从而减少存储占用。
层冻结:冻结预训练模型的选定层,同时在训练期间更新其他层。这通常适用于更接近模型输入或输出的层,具体取决于任务的性质和模型架构。例如,在3D-LLM方法中,除了输入和输出嵌入之外的所有层都可以被冻结,以减轻特定任务数据集的过拟合风险,保留预先训练的一般知识并减少需要优化的参数。
Prompt Tuning通过在提示中设置LLM的框架来指导LLM执行特定任务,与调整模型参数的传统微调相比,调整模型输入。手动提示工程是最直观的方法,但经验丰富的提示调谐工程师很难找到最佳提示。另一组方法是自动提示生成和优化。一种流行的方法是搜索精确的最佳输入提示文本,称为硬提示,例如。或者,可以使用优化方法来优化提示(软提示)的嵌入。
自适应微调通过添加或删除层或模块来为特定任务定制模型体系结构。这可以包括集成新的数据模式,如视觉信息和文本数据。自适应微调的核心思想是利用插入预训练模型层之间的小型神经网络模块。在自适应微调期间,仅更新这些适配器模块的参数,而原始模型权重保持不变。
2D Vision-Language models
视觉语言模型是一系列模型,旨在捕捉和利用文本和图像/视频之间的关系,并能够执行两种模式之间的交互任务。大多数VLM都具有基于Transformer的体系结构。通过利用注意力模块,视觉和文本内容相互制约,从而实现相互互动。在下面的段落中,我们将简要介绍VLM在判别和生成任务中的应用。
判别任务包括预测数据的某个特征。VLM,如CLIP和ALIGN,在图像分类中对看不见的数据的零样本可传输性方面表现出了非凡的性能。这两个模型都包括两个模块:视觉编码器和文本编码器。给定图像及其类别,CLIP和ALIGN是通过最大限度地提高句子“{图像类别}的照片”的图像嵌入和文本嵌入之间的相似性来训练的。零样本可转移性是通过在推理过程中用可能的候选者替换“{图像类别}”并搜索与图像最匹配的句子来实现的。这两部作品启发了众多后续作品,进一步提高了图像分类的准确性。这些模型还可以提取学习到的知识用于其他任务,包括目标检测、图像分割、文档理解和视频识别。
生成任务利用VLM从输入数据生成文本或图像。通过利用大规模训练数据,单个VLM通常可以执行多个图像到文本的生成任务,如图像字幕和视觉问答(VQA)。值得注意的例子包括SimVLM、BLIP和OFA等。更强大的VLM,如BLIP-2、Flamingo和LLaVA,能够处理基于输入图像的多回合对话和推理。随着扩散模型的引入,文本到图像的生成也成为了研究界的焦点。通过对大量的图像-文本对进行训练,扩散模型可以基于文本输入生成高质量的图像。此功能还扩展到生成视频、3D场景和动态3D目标。除了生成任务外,还可以通过文本提示编辑现有图像。
Vision Foundation Models
视觉基础模型(VFM)是一种大型神经网络,旨在提取足够多样化和富有表现力的图像表示,以便直接部署在各种下游任务中,反映预先训练的LLM在下游NLP任务中的作用。一个值得注意的例子是DINO,它使用了一种自我监督的师生培训模式。所学习的表示在图像分类和语义图像匹配方面都取得了良好的效果。DINO中的注意力权重也可以用作观察到的场景的语义成分的分割掩码。iBOT和DINOv2等后续工作通过引入掩蔽图像建模(MIM)损失来进一步改进表示。SAM是一种基于变换器的图像分割模型,在由11亿张具有语义掩码的图像组成的数据集上进行训练,并表现出强大的零样本传递能力。DINO(Zhang等人)——不要与DINO(Caron等人)混淆——采用了类似DETR的架构和混合查询选择来进行目标检测。后续工作Grounding DINO引入文本监督以提高准确性。Stable Diffusion是一种文本到图像生成器,它还被用作“真实”图像的特征提取器,方法是对干净或人工噪声图像运行单个扩散步骤,并提取中间特征或注意力掩码。这些特征最近被用于分割和图像匹配任务,这是由于用于扩散模型的训练集的大小和多样性,以及由于观察到的扩散特征的涌现特性,例如图像之间的零样本对应。
任务
3D Captioning (3D → Text)
- Object-Level Captioning
- Scene-Level Captioning
- 3D Dense Captioning
3D Grounding (3D + Text → 3D Position)
- Single-Object Grounding
- Multi-Object Grounding
3D Conversation (3D + Text → Text)
- 3D Question Answering (3D-QA)
- 3D Situated Question Answering (3D-SQA)
- 3D Dialogue
3.4 3D Embodied Agents (3D + Text → Action)
- 3D Task Planning
- 3D Navigation
- 3D Manipulation
3.5 Text-to-3D Generation (Text → 3D)
- 3D Object Generation
- 3D Scene Generation
- 3D Editing
3D TASKS WITH LLMS
3D场景理解任务已经被广泛研究。场景理解的核心是识别和分类指定三维环境中的所有目标,这一过程被称为语义或实例级理解。这一阶段至关重要,因为它构成了建立更微妙解释的基础。随后,更高层次的场景理解侧重于空间理解,空间理解是指空间场景图的构建和目标关系的语义。更进一步,可以预测潜在的互动,例如可供性、场景变化,以及理解场景的更广泛背景,例如功能和美学风格。3D数据还提出了2D中不存在的独特挑战,例如获得和标记3D数据的相对较高的成本、不均匀密集或与网格对齐的稀疏3D数据结构,以及需要协调相同目标的多个(可能被遮挡的)视点。为此,研究人员利用了语言的力量,可以嵌入3D世界中的语义和关系。最近在将大型语言模型(LLM)与3D数据集成方面的努力表明,利用LLM的内在优势,即零样本学习、上下文学习、逐步推理和广泛的世界知识,有望实现多层次的理解和交互。
How do LLMs process 3D scene information?
传统的LLM仅限于文本作为输入和输出,这使得摄取3D信息的能力成为所有3D-LLM方法的主要关注点。总体思路是将3D目标或场景信息映射到语言空间中,使LLM能够理解和处理这些3D输入。具体而言,这通常涉及两个步骤:(i)使用预先训练的3D编码器来处理相应的3D表示,产生原始3D特征;(ii)采用对齐模块将这些3D特征转换成LLM可以处理的3D标记,类似于所述的标记化过程。经过预训练的LLM然后可以在生成输出时使用这些对齐的3D标记。
如前所述,考虑到3D表示的多样性,有多种方法可以获得3D特征。如表1中的“3D几何”列所示,点云由于其简单性和与各种预先训练的3D编码器的兼容性而最为常见,这使其成为多任务和多模式学习方法的热门选择。多视图图像也经常被使用,因为对2D特征提取的研究已经成熟,这意味着3D特征提取只需要额外的2D到3D提升方案。使用深度相机容易获得的RGB-D数据通常用于3D嵌入式代理系统中,以提取与视点相关的信息用于导航和理解。3D场景图是一种更抽象的3D表示,擅长对目标的存在及其关系进行建模,并捕捉场景的高级信息。它们经常用于3D场景分类和规划任务。NeRF目前较少用于3D-LLM方法。我们认为这是由于它们的隐式性质,这使得它们更难标记化并与前馈神经网络集成。
LLMs for Enhancing 3D Task Performance
根据大量数据训练的LLM已被证明可以获得有关世界的常识性知识。LLM的世界知识和推理能力的潜力已经被探索出来,以增强对3D场景的理解,并重新制定几个3D任务的管道。在本节中,我们将重点介绍旨在使用LLM来提高现有方法在3D视觉语言任务中的性能的方法。当将LLM应用于3D任务时,我们可以将其使用分为两组:知识增强和推理增强方法。知识增强方法利用LLM中嵌入的广阔世界知识来提高3D任务性能。这可以提供上下文见解,填补知识空白,或者可以增强对3D环境的语义理解。或者,增强推理的方法不是依赖于它们的世界知识,而是利用LLM的能力逐步进行推理,从而提供更好的泛化能力来应对更复杂的3D挑战。以下两部分分别介绍了这些方法。
- Knowledge-enhanced approaches:有几种方法可以利用LLM世界知识。Chen等人使用LLM从RGB-D图像进行3D房间分类。这里,LLM中嵌入的知识用于基于房间中包含的对象类别信息来确定房间类别。首先,这种方法从Matterport3D数据创建场景图,其中包含区域和对象的节点,以及链接到房间节点的对象节点。接下来,选择关键对象以形成每个房间类型的查询。从所选对象中提取的LLM分数描述,最高分数预测房间标签。还可以提供诸如尺寸或位置之类的空间信息。
- Reasoning-enhanced approaches:除了世界知识外,LLM的推理能力还有助于处理其他3D任务,特别是在具有详细几何结构和多个对象的复杂3D场景中的视觉基础。在这种情况下,对象的文本描述应该包括它们的外观以及与周围项目的空间关系。由于无法理解详细的文本描述,普通的接地方法在这种情况下往往很困难。LLM-Grounder、Transcribe3D和零样本3DVG通过利用LLM的推理能力来分析文本描述并生成一系列指令来使用现有的接地工具箱来定位对象,从而解决了这个问题。
LLMs for 3D Multi-Task Learning
许多工作侧重于使用LLM的指令跟随和上下文学习功能,将多个3D任务统一到一个语言空间中。通过使用不同的文本提示来表示不同的任务,这些研究旨在使LLM成为一个统一的对话界面。使用LLM实现多任务学习通常涉及几个关键步骤,从构建3D文本数据对开始。这些配对需要以文本形式精心制作任务指令,并定义每个不同任务的输出。接下来,3D数据(通常以点云的形式)被馈送到3D编码器以提取3D特征。对齐模块随后用于(i)在多个级别(目标级别、关系级别和场景级别)上将3D特征与来自LLM的文本嵌入对齐,以及(ii)将3D特征翻译成LLM可解释的标记。最后,需要选择合适的训练策略,例如单阶段或多阶段的3D语言对齐训练和多任务指令微调。
在本节的剩余部分中,我们将详细探讨这些方面。我们在表2中还总结了本节中审查的每种方法的范围和能力。
- Data for Multi-Task Learning:如表2所示,我们将任务分为四类:字幕、基础、问答(QA)和具体代理任务(即计划、导航和操作)。因此,每个任务的文本输出都遵循预定义的格式。对于字幕和QA任务,输出为纯文本,不受特定格式的限制。基础任务的输出是一个三维边界框,通常是参考对象的中心坐标及其三维大小。通常,点和大小的值被归一化为落在0-255的范围内,这限制了LLM需要预测的令牌的范围。对于规划,模型以文本形式输出一系列执行任务的步骤,而对于导航,输出是一系列空间坐标。对于操作,输出是文本形式的动作序列。现有方法遵循这些准则来构建其多任务指令微调数据集。
- Training an LLM for multiple 3D tasks:为多个3D任务训练LLM的第一步涉及获得有意义的3D特征,其中提取方法根据3D场景的类型而变化。对于单个对象点云,point LLM、Chat-3D和GPT4Point利用point BERT提取3D对象特征。对于室内场景,LEO使用PointNet++进行特征提取,而Chat-3D v2和3DMIT对场景进行分割,并使用Uni-3D为每个分割部分提取特征。同时,MultiPLY将提取的对象特征集成到场景图中,以表示整个场景。3D-LLM和场景LLM将特征从2D多视图图像提升到3D表示中。3D-LLM从Mask2Former或SAM中提取2D语义特征。场景LLM遵循ConceptFusion融合全局信息和局部细节,将逐像素的CLIP特征映射为逐点的3D特征。对于室外3D场景,LiDAR LLM使用VoxelNet来提取3D体素特征。
LLMs as 3D Multi-Modal Interfaces
除了探索3D多任务学习器外,最近的一些研究还结合了不同模式的信息,以进一步提高模型的能力并实现新的交互。除了文本和3D场景之外,多模式3D LLM还可以包括场景中的2D图像、音频或触摸信息作为输入。
大多数作品旨在构建跨不同模态的公共表示空间。由于一些现有作品已经提供了将文本、图像或音频映射到公共空间的预训练编码器,一些作品选择学习将3D嵌入与用于其他模态的预训练的编码器的嵌入空间对齐的3D编码器。JM3D-LLM学习将点云的嵌入空间与SLIP的文本图像嵌入空间对齐的3D点云编码器。它渲染点云的图像序列,并在训练期间构建层次文本树,以实现详细对齐。Point Bind还学习了一个类似的3D编码器,并将其与ImageBind对齐,以统一图像、文本、音频和点云的嵌入空间。这使得能够使用不同的任务头在各种模式之间处理不同的任务,例如检索、分类和生成。然而,一个值得注意的限制是,这种方法仅适用于小规模的目标级场景,因为3D编码器处理具有数百万点的大型场景在计算上是昂贵的。此外,像CLIP这样的大多数预训练多模式编码器都是为单目标场景设计的,不适合具有多个目标和局部细节的大型场景。
相反,大型场景需要更细致的设计来融合多种模式。ConceptFusion构建了一个增强的特征图,该特征图融合了大型场景的每个组成图像的全局信息和局部细节。这是通过使用已经与包括文本和音频在内的不同模态对齐的预先训练的特征提取器来实现的。然后,它使用传统的SLAM方法将特征图映射到场景的点云。MultiPLY采用了与ConceptGraph类似的表示方式。它识别场景中的所有显著目标,获得每个目标的全局嵌入,并最终构建场景图。所得到的表示是与Llama的嵌入空间对齐的场景嵌入。包括音频、温度和触觉在内的其他模态的嵌入也可以使用线性投影映射到相同的空间。所有嵌入都被标记化,并立即发送到LLM。与目标级场景的方法相比,可以处理大型场景的方法通过依赖预先训练的编码器来弥补模态差距,而不是从头开始学习新的编码器,从而降低了成本。
LLMs for Embodied Agents
可以使用LLM的规划、工具使用和决策能力来创建3D具体代理。这些能力使LLM能够生成智能决策,包括在3D环境中导航、与目标交互以及选择适当的工具来执行特定任务。本节描述了3D具体代理如何执行规划、导航和操作任务。
- 3D Task Planning:对于具体代理,“任务规划”是指在给定任务描述和3D环境的情况下,生成执行特定任务的步骤的能力。任务规划通常是导航和操纵任务的先决条件,因为规划的准确性直接影响后续任务的性能。LEO和LLM Planner利用LLM生成逐步计划,并根据环境感知进行动态调整。LEO强调基于当前场景配置的场景感知规划,而LLM Planner采用GPT3将规划划分为高级子目标和低级动作,并在任务执行过程中代理陷入困境时进行重新规划。3D-VLA通过生成的世界模型将3D感知、推理和动作相结合。它专注于通过利用其生成模型来预测未来的状态表示(例如目标图像和点云)来增强规划能力。
- 3D Navigation:3D导航是指嵌入式代理在3D环境中移动和定位自己的能力,通常基于视觉输入和语言指令。所描述的每种方法——LEO、Agent3D Zero、LLM Planner和NaviLLM——都以不同的方式实现3D导航。LEO处理以自车为中心的2D图像和以目标为中心的3D点云以及文本指令。
- 3D Object Manipulation:在3D具体代理的上下文中,操纵是指它们与目标进行物理交互的能力,从移动目标到组装零件或打开门等复杂序列。用于使LLM能够执行操作任务的核心思想在于将动作序列标记化。为了让LLM输出特定的动作,首先需要定义动作令牌,该动作令牌允许LLM基于任务和3D场景上下文生成所述动作。随后,像CLIPort或机械臂中的运动规划模块这样的平台将这些标记化的动作转化为由代理执行的物理动作。
LLMs for 3D Generation
传统上,3D建模是一个复杂的时间密集型过程,进入门槛很高,需要对几何体、纹理和照明进行详细关注才能获得逼真的结果。在本节中,我们将仔细研究LLM与3D生成技术的集成,展示语言如何提供一种在场景中生成上下文化目标的方法,并为3D内容创建和操作提供创新的解决方案。
- Object-level Generation:Shape GPT使用特定形状的3D VQ-VAE将3D形状量化为离散的“形状字”标记。这使得能够将形状数据与文本和图像一起集成到T5语言模型的多模态输入中。这种多模态表示使T5能够学习跨模态交互,例如文本到形状的生成和形状编辑/完成。GPT4Point使用双流方法-通过point QFormer将点云几何图形与文本对齐,然后将其输入到耦合的LLM和扩散路径中,用于文本理解和符合文本输入的高保真3D目标生成。
- Scene-scale Generation:Holodeck和GALA-3D采用多级管道将初始粗略的3D场景布局从文本逐步细化为详细逼真的3D环境。Holodeck采用专门的模块来制作基本布局,选择材料,并根据GPT-4的空间推理和布局/风格建议融入门窗等元素。然后,它使用与GPT-4的文本描述相匹配的Ob厌恶资产填充布局。优化器根据从GPT-4获得的空间关系约束来排列这些目标,以鼓励真实的目标布局和交互。
- Procedural Generation and Manipulation:LLMR、3D-GPT和SceneCraft采用具有专门组件/代理的模块化架构,用于从自然语言进行交互式3D世界创建和代码生成。LLMR由不同的组件组成,用于生成代码以在Unity中构建场景,了解现有场景目标和属性以进行修改,识别执行指令所需的功能,并评估最终代码质量。类似地,3D-GPT具有用于解释指令和确定所需生成函数的组件,使用详细的建模属性丰富描述,并将丰富的描述转换为Blender API的Python代码。总的来说,这些方法展示了LLM组件的任务分解和专业化,以处理指令解释、函数映射和稳健的代码生成。
3D TASKS WITH VLMS
Open-Vocabulary 3D Scene Understanding
开放词汇3D场景理解旨在使用自然语言描述而不是预定义的类别标签来识别和描述场景元素。OpenScene采用零样本方法,预测与CLIP的文本和图像像素嵌入共同嵌入到共享特征空间中的3D场景点的密集特征,实现任务识别训练和开放词汇查询,以识别目标、材料、启示、活动和房间类型。CLIP-FO3D遵循类似的方法,修改CLIP以从投影到点云的3D场景中提取密集的像素特征,然后通过蒸馏训练3D模型以转移CLIP的知识。语义抽象从CLIP中提取关联图作为抽象目标表示,以推广到新的语义、词汇和领域。Open Fusion将SEEM视觉语言模型与TSDF 3D映射相结合,利用基于区域的嵌入和置信度图进行实时开放词汇场景创建和查询。
Text-Driven 3D Generation
在这里,我们调查了利用2D VLM和使用可微分渲染的文本到图像扩散模型的指导的文本到3D生成方法。DreamFields、CLIP-Mesh、CLIP-Forge和Text2Mesh等早期作品探索了CLIP指导的零样本3D生成。
DreamFusion引入了Score Distriction Sampling(SDS),其中3D表示的参数通过使其从任意角度的渲染看起来高度逼真来进行优化,如通过预先训练的2D扩散模型进行评估。它使用文本到图像的Imagen模型来通过SDS优化NeRF表示。Magic3D提出了一个两阶段框架:生成具有低分辨率扩散先验和稀疏3D哈希网格的粗略模型,然后使用高效的可微分渲染器和高分辨率潜在扩散模型优化纹理3D网格模型。Fantasia3D使用混合DMET表示和空间变化的BRDF,将几何图形和外观解开。ProlificDreamer引入了变分分数蒸馏(VSD),这是一种基于粒子的框架,将3D参数视为随机变量,以提高保真度和多样性。Dream3D利用明确的3D形状先验和文本到图像的扩散模型来增强文本引导的3D合成。MVDream采用了可在少量镜头数据上训练的多视图一致扩散模型,用于个性化生成。Text2NeRF将NeRF表示与预先训练的文本到图像扩散模型相结合,以根据语言生成不同的室内/室外3D场景。除了同时生成几何图形和外观外,一些研究还探索了仅基于给定几何图形合成纹理的可能性。
End-to-End Architectures for 3D Vision & Language
在大型3D文本数据集上预先训练的Transformer模型学习强大的联合表示,将视觉和语言模态连接起来。3D VisTA是一种Transformer模型,它利用自注意力对3D视觉和文本数据进行联合建模,实现对掩蔽语言/目标建模和场景文本匹配等目标的有效预训练。UniT3D采用统一的Transformer方法,结合PointGroup 3D检测主干、BERT文本编码器和多模式融合模块,对合成的3D语言数据进行联合预训练。SpatialVLM采用了不同的策略,在大型合成三维空间推理数据集上共同训练VLM,提高了三维空间视觉问答任务的性能,并支持机器人的思想链推理等应用。Multi CLIP预训练3D场景编码器,使场景特征与CLIP的文本和图像嵌入对齐,旨在传递CLIP的知识,以提高对视觉问答等任务的3D理解。
数据集
挑战和未来机遇
尽管LLM与3D数据的集成取得了进展,但在数据表示、计算效率和基准方面仍然存在挑战,需要创新的解决方案。
表示选择对三维视觉语言模型的性能有很大影响。目前,点云由于其简单性和神经网络兼容性,主要用于表示室内(例如网格的顶点)和室外(例如激光雷达点云)环境。然而,他们很难捕捉到对准确、丰富的空间模型至关重要的细节。开发新的3D场景表示,更有效地弥合空间信息和语言之间的差距,可以开启新的理解和互动水平。通过找到在3D表示中编码语言和语义信息的创新方法,例如使用提取的语言和语义嵌入,可以帮助弥合这两种模式之间的差距。
3D数据处理和LLM的计算需求都带来了重大挑战。随着3D环境的复杂性和语言模型的大小的增加,可扩展性仍然是一个令人担忧的问题。为自适应性和计算效率而设计的LLM架构的进步可以显著拓宽其改进基准对于全面评估和提高3D任务中多模态LLM的能力至关重要。目前的基准范围有限,特别是在三维推理方面,阻碍了空间推理技能的评估以及三维决策/交互系统的开发。此外,目前使用的指标还不能全面捕捉LLM在3D环境中的功能。制定特定任务的指标,更准确地衡量不同3D任务的性能至关重要。最后,当前场景理解基准的粒度过于简单,限制了对复杂3D环境理解的深入了解。需要一系列更加多样化的任务。
改进基准对于全面评估和提高多模态LLM在3D任务中的能力至关重要。目前的基准范围有限,特别是在三维推理方面,阻碍了空间推理技能的评估以及三维决策/交互系统的开发。此外,目前使用的指标还不能全面捕捉LLM在3D环境中的功能。制定特定任务的指标,更准确地衡量不同3D任务的性能至关重要。最后,当前场景理解基准的粒度过于简单,限制了对复杂3D环境理解的深入了解。需要一系列更加多样化的任务。
在使用LLM进行3D理解时,必须考虑安全和道德影响。LLM可能产生幻觉并输出不准确、不安全的信息,从而导致关键3D应用程序中的错误决策。此外,LLM往往以不可预测和难以解释的方式失败。他们还可能继承训练数据中存在的社会偏见,在现实世界的3D场景中进行预测时,对某些群体不利。至关重要的是,在3D环境中谨慎使用LLM,采用策略创建更具包容性的数据集、用于偏见检测和纠正的强大评估框架,以及最大限度地减少幻觉的机制,确保负责任和公平的结果。
结论
本文对LLM与3D数据的集成进行了深入的探索。该调查系统地回顾了LLM在处理、理解和生成3D数据方面的方法、应用和涌现能力,强调了LLM跨一系列3D任务的变革潜力。从增强三维环境中的空间理解和交互,到推动嵌入式人工智能系统的能力,LLM在推进该领域中发挥着关键作用。
关键发现包括识别LLM的独特优势,如零样本学习、高级推理和广泛的世界知识,这些优势有助于弥合文本信息和空间解释之间的差距。该论文展示了LLM与3D数据集成的广泛任务。与LLM一起探索其他3D视觉语言方法,揭示了旨在加深我们对3D世界理解的丰富研究前景。
此外,该调查强调了数据表示、模型可扩展性和计算效率等重大挑战,表明克服这些障碍对于充分实现LLM在3D应用中的潜力至关重要。总之,这项调查不仅全面概述了使用LLM的3D任务的现状,而且为未来的研究方向奠定了基础。它呼吁开展合作,探索和扩展LLM在理解复杂的3D世界和与之互动方面的能力,为空间智能领域的进一步进步铺平道路。