无编码器多模态大模型被拓展到3D领域——
3D编码器的功能被融入LLM本身,无编码器3D LMM适应不同的点云分辨率,摆脱预训练编码器的依赖。
来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL,在预训练阶段探索了如何使用自监督损失将3D编码器的功能整合到LLM本身,在指令调优阶段提出了一种层次几何聚合策略,基于PointLLM首次全面研究了无编码器架构在3D多模态大模型中的潜力。
在Objaverse基准测试中,ENEL表现突出,性能上超越目前SOTA ShapeLLM-13B。
基于编码器架构的3D LMM的局限性
针对3D大型多模态模型(LMMs),基于编码器的架构存在以下潜在问题:
(1)点云分辨率限制。3D编码器通常在固定分辨率的点云数据上进行预训练(如PointBERT中的1024个点)。然而在推理过程中,点云的分辨率可能发生变化(例如,8192或512个点),这导致训练与推理分辨率不一致,从而在提取3D嵌入时丢失空间信息,影响LLM的理解能力,如图(a)所示。
(2)嵌入语义差异。3D编码器通常采用自监督学习方法(如掩码自编码器和对比学习)进行预训练,但其训练目标与LLMs的语义需求可能不完全一致,因此无法捕捉LLMs理解3D物体所需的关键语义信息,如图(b)所示。
简单的MLP通常也难以实现充分的语义转换。从上图可见,ENEL的无编码器架构提供了更高的灵活性和更强的泛化性,更多关注到3D关键语义。
应用自监督损失将3D编码器纳入LLM本身
无编码器结构首先面临的问题是如何提取高层次3D语义信息,避免模型难以捕捉3D点云的复杂空间结构。可以观察到从PointLLM中拿掉Encoder后,模型性能显著下降。
PointLLM原生的token embedding模块过于粗粒度,为了减少信息损失并提供精细的局部特征,团队采用了一个来自Point-PN的轻量化变体小型网络。
具体而言,对于点云团队通过FPS进行下采样,采用knn进行局部聚合,并使用可学习的线性层进行特征编码。结果表明团队设计的embedding模块相比可以带来明显的性能提升。
为了让LLM进一步承担encoder的编码功能,在预训练阶段尝试了将LLM的前几层设为可学习来挖掘点云特征中的高级语义信息,结果发现较小的学习率能够带来更好的结果。
通过以上两种改变,无编码器结构已经与基于编码器的PointLLM在描述任务上持平。
当前的3D编码器大多依靠自监督损失学习提取并编码高层次3D语义信息, 主要分为掩蔽建模损失(a)、重建损失(b)、对比损失(c) 和知识蒸馏损失(d)。
基于编码器架构的3D LMM在训练时依靠对文字部分应用自回归损失进行学习,那是否能同时对点云部分应用自监督损失,将3D编码器的能力整合进LLM本身?
团队在预训练阶段实现并评估了这些损失对无编码器3D LMM的影响。
具体而言,掩蔽建模损失和重建损失分别对点云掩码token的部分进行恢复和对全体点云token进行重建,而知识蒸馏损失采用uni3d-L在特征层面进行蒸馏。
最后团队提出了一种混合语义损失,先对点云token进行随机掩码,然后将mask token拼接在visible token的后面以符合自回归逻辑,同时对visible token计算重建损失,这种混合方法不仅能够有效地将高层次语义信息嵌入LLM中,还能确保在整个点云学习过程中,几何信息的一致性得以保持。
从实验结果中可以观察到,自监督学习损失在无编码器3D LMM中通常具有积极影响,通过精心设计的任务促使LLM在学习过程中捕捉潜在的几何关系以及深层次的语义信息。
其中,掩蔽建模损失展现出最为显著的性能提升。
相较之下,知识蒸馏损失的提升效果较为有限,表现逊色于前两种损失类型。
层次几何聚合策略感知3D局部细节
传统的3D编码器往往通过将显式的归纳偏置嵌入其架构中,逐步捕捉多层次的3D几何特征。例如,像Point-M2AE这样的模型采用了局部到全局的层次结构,这一结构在2D图像处理中常见于卷积层。相比之下,无编码器架构的LLM没有明确的局部建模模块,主要依赖自注意力机制来建模全局交互。
因此,如何将归纳偏置有效地整合到LLM中,以增强其对3D几何结构的感知能力,成为一个重要问题。
基于提出的混合语义损失,在指令调优阶段,团队探索了如何促使LLM主动感知3D局部细节,同时补充其已学习的全局语义信息。为此,团队设计了层次几何聚合策略。
具体来说,从LLM的第二层开始,通过最远点采样将输入点云token下采样,将令牌数量减少至M/2并选取局部中心。接着,利用k-NN算法获取邻近点,并通过门控自注意力机制捕捉局部几何信息。
最终,通过池化操作融合邻近点特征,得到M/2长度的特征表示,并重复l-1次,完成几何聚合。通过多层LLM层后,再通过l次几何传播将聚合后的特征从局部中心传播至邻近点,最终恢复为长度为M的点云特征,增强模型对局部和全局几何结构的感知。
实验结果:定性定量分析
定性实验中,团队可视化了PointLLM和ENEL最后一层中,平均文本token与点云token之间的注意力得分。
团队选择了三种物体类别:椅子、飞机和台灯。
图中红色表示较高的注意力得分。
结果显示,ENEL作为无编码器架构,能够实现两种模态特征之间的高相关性,平均文本token聚焦于物体的关键几何结构。
在Objaverse基准测试中,ENEL-7B在描述和分类任务上超越了同等规模甚至13B的模型。此外,在3D MM-Vet数据集的3D-VQA任务中,尽管训练数据缺乏空间和具身交互信息,ENEL仍取得了42.7%的GPT得分,领先PointLLM-7B 1.5%。
定性定量结果验证了混合语义损失和层次几何聚合策略在无编码器架构中的有效性。
代码链接:
https://github.com/Ivan-Tang-3D/ENEL.
论文链接:
https://arxiv.org/pdf/2502.09620v1