几何视角下的大语言模型推理

发布于 2024-7-19 11:00
浏览
0收藏

几何视角下的大语言模型推理-AI.x社区

一、结论写在前面

论文标题:Reasoning in Large Language Models: A Geometric Perspective

论文链接:​​https://arxiv.org/pdf/2407.02678​

大语言模型在实际应用中的进步关键取决于其推理能力的提升。论文在此介绍了DNN和LLMs几何学的一些方面,特别是展示了由MLP利用其分段线性公式引起的输入空间划分的重要性。DNN的适应性划分在其逼近能力中起着巨大的作用。事实上,与传统的样条相比,MLP在其输入空间中引起的区域是数据依赖的,因此是在训练过程中确定的。论文展示了这种逼近与区域数量之间的相互作用如何影响LLMs逼近函数的能力。

论文的分析表明,这些图的密度定义了输入到MLP块的内在维度。论文通过理论分析和玩具示例证明,更高的内在维度意味着LLM具有更大的表达能力。论文进一步提供了经验证据,将这一几何框架与旨在增强LLMs推理能力的方法的最新进展联系起来。

​二、论文的简单介绍

2.1 论文的背景​

大型语言模型(LLMs),如GPT-4 、Llama 3 ,在广泛的任务上取得了令人印象深刻的性能。寻找更好的LLMs关键取决于这些模型的推理性能。然而,目前尚不清楚语言模型的哪些方面对于实现这一目标至关重要。目前,社区普遍认为推进推理的方法包括(i)增加模型规模(更大的模型导致更好的推理能力)和(ii)增加上下文长度,通过思维链、检索增强生成或示例提示等方式,为LLM提供更多的输入文本或标记。

尽管这些方法已经足够,但它们仅代表了改进潜力的一部分途径。此外,更长的输入和更大的模型对应着实际应用场景中计算成本和推理延迟的增加。在这项工作中,论文采取了一种原则性的方法来理解并阐明大型语言模型(LLMs)的特性,这些特性有助于提升和改善推理能力。论文的研究利用了transformer层的几何结构,这是LLMs的关键组成部分,并通过模拟以及Llama 3系列模型的实证证据来支持论文的观点。

特别地,论文描述了与transformer层容量或表达能力相关的关键特性。论文表明,(i)自注意力或多头注意力(MHA)模块中token间交互的密度体现了后续多层感知机(MLP)层所能实现的函数表示复杂度,以及(ii)模型尺寸和上下文长度的增加促进了更高的注意力密度,从而改善了推理能力。论文的分析为提升推理能力、推进LLMs发展开辟了道路,同时加深了论文对模型及其行为的理解。论文注意到,论文伴随的工作[11]在此工作中展示了通过LLM几何视角分析RLHF获得的毒性防护机制的脆弱性。

在这项工作中,论文特别感兴趣的是理解LLM的几何结构与其推理能力之间的关联。此外,论文还在探究增加输入序列长度以及注意力头数量如何影响LLM的几何结构。事实上,已有实证研究表明这些是提升LLMs推理能力的关键因素。

2.2 输入空间划分与表达能力

论文深入探讨了支撑深度神经网络(DNNs)基本方面的一个几何直觉:DNN输入空间的自适应划分。这一过程导致了输入空间内区域的形成,每个区域都与一个仿射映射相关联,该映射描述了网络如何处理该区域的输入。然后,论文利用这一观点与转换器模块中的多头注意力(MHA)层相结合,为LLMs开发了一种新颖的几何视角。这一视角使论文能够假设模型大小和上下文长度在现代LLMs中的作用,并提出了一条通向改进推理能力的替代思想的路径。    

2.2.1 深度神经网络

论文描述深度神经网络的连续分段仿射形式化,以阐明其诱导的局部线性映射概念。特别地,论文聚焦于从样条几何视角出发,通常用于变换器中的单隐藏层多层感知器(MLP)的简单情况。随后,论文通过模拟实验直观展示其逼近能力,强调自适应分区特性的重要性以及输入空间维度的作用。

深度神经网络的连续分段仿射形式化:采用非线性激活函数(如((leaky-)ReLU、绝对值和最大池化)的MLP的几何特性已从连续分段线性算子的角度得到广泛研究,导致输入空间的分区。因此,定义为带有参数Θ的f的DNN可以重写为

几何视角下的大语言模型推理-AI.x社区

分区、区域数量与函数逼近:对于输入空间中的给定区间,DNN的逼近能力与该区间内的区域数量及其相关映射直接成正比。根据公式1中定义的DNN连续分段仿射特性,考虑两种可能的逼近场景:(1)目标函数在给定区间内是线性的,此时单一区域已足够;

几何视角下的大语言模型推理-AI.x社区

图1:MLP的连续分段仿射视图。使用标准偏置(左)和零偏置(右)随机初始化的一隐藏层MLP所诱导的输入空间划分的二维可视化    

为了近似目标函数,DNN可能需要:(i)在区间内函数是线性的,此时DNN仅需要调整其斜率和偏置;或者(ii)在区间内函数是非线性的,此时DNN需要多个区域来近似目标函数的曲率;区间内区域越多,函数近似效果越好。

在图2中,论文验证了上述说法,并在DNN中展示了这种现象的可视化。待近似的目标函数是一个简单的正弦函数,输入空间为[-2π, 2π]。首先,神经元数量越多,近似能力越强。特别是,只要有足够的区域,DNN可以在输入空间内近似任意复杂的函数。理论上,论文知道具有无限数量神经元的DNN是通用近似器,而几何视图提供了同一理论的不同视角。其次,每个区间内的近似误差与该区间内DNN可用的区域数量直接成正比。最后,这些区域的定位是数据驱动的,尽管架构变化会引入偏置,DNN可以根据训练数据的均匀性和大小在其输入空间中增加或减少分区,以适应更多的曲率。

几何视角下的大语言模型推理-AI.x社区

图2:DNN近似与诱导的输入空间区域数量。一个MLP对正弦函数的真实值与近似(顶部),该MLP在其输入空间中诱导的关联区域数量(中部),以及近似误差(底部)。论文展示了具有50个神经元的1隐藏层MLP(左侧)和具有500个神经元的MLP(右侧)的结果。论文注意到,模型在DNN引入新区域时脱离其线性行为,每当MLP映射中发生方向变化时都会引入新区域。随后,根据公式1,论文为模型创建的每个新区域获得一个新的仿射映射,在区域数量较多的空间中进行更精细的近似,如具有500个神经元的更宽MLP所示。DNN的关键优势在于它们能够适应这些区域的定位并学习数据驱动的分区

增加神经元数量会增加区域数量,因此DNN的近似能力确实会提高。论文现在的问题是,是否存在另一种方法可以在不影响架构的情况下增加DNN的容量。特别是,论文研究了区域数量与输入空间的内在维度之间的相互作用。在图3中,论文展示了不同大小的1隐藏层MLP,区域数量随内在维度呈指数级增长。    

接下来论文将利用MLP的几何特性,即近似、表达能力和维度,结合多头注意力层来理解LLMs中transformer模块的几何结构。特别是,论文提出了一个通过这些几何概念理解LLMs的框架,从理论和实证两个角度出发。

结合多头部注意力层,以理解大型语言模型(LLMs)的几何结构。特别是,论文提出一个框架,通过这些几何特征来理解LLMs。图3展示了区域数量随输入维度变化的上限,涉及1个隐藏层的多层感知机(MLP)在输入空间内在维度上的影响(50、100和500个神经元)。论文观察到,增加输入空间的内在维度会增加区域数量。因此,对于给定数量的神经元,可以通过增加输入空间的内在维度来人为增加区域数量。这对于理解为何通过多示例或思维链(CoT)增加提示规模能提升LLMs的推理能力是一个关键组成部分。这将成为第2.2小节以及第3节的核心要点。    

几何视角下的大语言模型推理-AI.x社区

2.2.2 大语言模型

这里论文将解释LLM的架构组件及其变体,这些变体有助于提升LLMs的表达能力。具体而言,论文将研究LLM诱导的分区对增加注意力头数量以及上下文长度(作为输入传递的token序列)的影响。为此,论文将利用[11]中的结果,表明随着自注意力层内在维度的增加,LLM的表达能力也随之增强。    

内在维度与多头注意力图密度:论文从定义因果语言模型中的transformer层开始,引入以下符号

几何视角下的大语言模型推理-AI.x社区

从公式6可以看出,注意力层的输出是一个右随机矩阵,它定义了一个图,其中图的节点是序列中的标记,边(权重)由注意力值定义。在表示图的连通性水平时,论文通常会提到自注意力图的密度,即有边的标记数量。

在定理2.1中,论文明确地捕捉了如公式5所定义的多头注意力层的输出与每个单独注意力层所诱导的维度之和驱动的内在维度之间的关系。

几何视角下的大语言模型推理-AI.x社区

从公式 7 可以看出,内在维度可以通过以下两种方式增加:(i)强化高度连接的注意力图,或(ii)增加更多的注意力头。接下来,论文将利用这一特性,并将其与大型语言模型(LLMs)的表达能力联系起来。

内蕴维度 (Intrinsic Dimension,ID): 嵌入空间的内蕴维度指的是在保持其结构不变的情况下,描述该空间所需的最少参数数量 。内蕴维度估计方法通常依赖于构建基于相似性的图。然而,在大型语言模型 (LLMs) 中,相似性图以注意力值的形式直接可用。论文定义了一个软性的内蕴维度概念,等同于定理 2.1 中的定义,即:    

几何视角下的大语言模型推理-AI.x社区

直观上,ID是指在定义第i^th 嵌入时,超过阈值的影响力token的数量。在实践中,论文根据多个示例中注意力值的统计和分布来设置阈值(所有实验中均采用 O.1)。

LLM 表达能力与内蕴维度:定理 2.1 具有重要意义,特别是图 3 时。论文证明了:(i) 区域数量越多,DNN 的近似能力越强;(ii) 区域数量可以通过增加 MLP 输入的内蕴维度,而不仅仅是增加神经元数量来增加。

从公式 2 到公式 5 以及定理 2.1 描述的 transformer 架构中,论文还知道 MLP 输入的内蕴维度受注意力图驱动。因此,注意力图的密度越高,MLP 诱导的区域数量越多,从而其表达能力越强。

现在可以明确的是,通过以下两种方式可以增强大型语言模型(LLM)的表达能力:(i)根据方程7的加性特性增加头数,(ii)进行提示修改以增加注意力图的密度。需要注意的是,这两种方法在过去几年中在多个方面已被广泛采用。

在图4中,论文提出重新使用论文的正弦函数玩具示例。具体来说,论文展示了由不同上下文长度和头数的MLP引起的区域数量。论文考虑一个单层LLM,即嵌入、自注意,然后是1个隐藏层MLP。为了将一维时间维度编码到更高维空间,论文将嵌入层视为“位置编码”。具体地,每个时间箱t被映射到一个正弦波,其频率取决于上下文长度和位置。论文观察到,输入空间中由MLP引起的区域数量随着上下文长度和头数的增加而增加。与子节2.1中的MLP示例类似,LLM的能力与区域数量相关,即,输入空间中区域越密集,近似效果越好。

在图5中,论文提供了关于上下文长度和注意力头数对MLP引起的区域数量的更定量实验。再次观察到,为了增加区域数量从而提高LLM的近似能力,可以增加自注意力块中的头数或增加上下文长度。

现在可以清楚地看到,这些相关性是定理2.1以及图3中展示的超平面排列结果的共同结果。也就是说,随着内在维度空间的增加,超平面排列所诱导的区域数量呈指数级增长。在大型语言模型(LLMs)中,论文发现了这一点。    

几何视角下的大语言模型推理-AI.x社区

图4:LLM近似与诱导的输入空间区域数量 - sin(t)(1000个时间区间)通过一个1块LLM的近似,即嵌入 -> 注意力块(如公式3所示) -> 1隐藏层MLP。论文展示了sin函数的近似结果以及MLP在输入空间中诱导的区域数量,针对不同的头数和上下文长度:(左上)上下文长度:10,头数:1,(右上)上下文长度:10,头数:10,(左下)上下文长度:100,头数:1,(右下)上下文长度:100,头数:10。论文观察到,上下文长度和头数均能增加MLP在输入空间中覆盖的区域数量,从而提升LLM的近似能力。这一结果与论文的几何描述相吻合    

论文现在提出,利用这种几何关系作为工具来增强LLM的表达能力,可以提高其推理能力。

2.3 实验:增强LLM的表达能力确实提高了其推理能力

论文通过前述的几何分析视角,探讨LMs回答推理问题的能力。具体来说,论文探讨MLP诱导的区域数量增加如何导致更好的推理能力。事实上,近似能力和泛化能力并非等同的概念。然而,尚未确定LLM的推理能力与其泛化能力是否相关。尽管

几何视角下的大语言模型推理-AI.x社区

图5:LLM输入空间区域 - (左) 描述了LLM输入空间中由MLP块引起的区域数量,关于注意力头数量和上下文长度的关系。(右) 放大左图中的两行,特别是针对几个注意力头:5、10。论文观察到,增加注意力头和上下文长度确实会增加区域数量,正如前文所述,这会导致更好的近似性质。需要注意的是,尽管改变注意力头数量可能繁琐且需要预训练或微调,但可以无缝改变上下文长度。因此,有一种方法可以在不与模型权重交互的情况下提高LLM的近似能力

尽管这些概念仍然难以精确界定,论文将在本实验部分重点探讨内在维度,即表达能力,与推理能力之间的关系。

论文提出了两个实验来证明它们之间存在有趣的关联。在论文的实验中,论文使用了GSM8K-Zero数据集来评估模型在不同少样本场景下生成正确答案的性能,从0到10个样本不等。具体来说,对于每个样本和每个1到10样本条件,论文考察了模型在不同层与O样本基线相比的内在维度变化。此外,论文还评估了这些变化如何影响模型响应的质量。在图6中报告的第一个实验中,少样本示例是从GSM8K-Zero训练集中随机抽取的问题-答案对。在图7中报告的第二个实验中,这些少样本示例是随机token。    

从这些实验中,论文得出以下观察结果:(i)在当前问题前加上任何类型的标记确实会增加第一层的内在维度。事实上,第一层的注意力图表现为对标记的均匀分布,然而,这种增加并不一定与模型的推理能力相关,正如随机标记实验所示(图7)。(ii)论文观察到,当前置标记导致模型最后一层的内在维度增加时,大型语言模型(LLM)的推理能力显著提升。这种提升体现在更高比例的问题被正确回答上。

在图8中,论文展示了每一层相对于0的1到10次采样内在维度的变化。论文清楚地看到,无论模型的大小如何,最后一层的内在维度对于响应的正确性具有高度信息量。尽管第一层的内在维度在输出是否正确时似乎有很大变化,但这种方差过大,以至于不显著且不可靠。

这些实验突显了模型表达能力与其推理能力之间的关联。如第2节所述,增强这种表达能力可以通过增加输入到MLP块的维度来实现。这种关系表明,更复杂的输入有助于提升模型的推理性能。

在LLMs中,向提示中添加上下文可以增加信息密度(ID)(取决于上下文与问题的相关性),从而增加由多层感知器(MLP)产生的分段仿射映射的数量。需要注意的是,对于LLM,自我注意力头输出的每个token都由MLP独立转换。因此,具有更精细分区的MLP将为每个token提供更自适应的仿射映射。从近似的角度考虑,由于token被线性组合以产生它们的预测,MLP独立应用于每个token的近似误差很容易累积,因此,LLamu3 8B Lama3 70B周围的划分越精确,    

几何视角下的大语言模型推理-AI.x社区

图6:推理与内在维度增加。关于相对内在维度变化的正确响应百分比,即推理或提取,针对Llama3 8B(左)和70B(右)Instruct模型。每个直方图上方标注了实际正确响应的数量和每个区间关联的示例数量以供参考。论文将GSM8K-Zero数据集中响应错误的输入基础提示示例(约300个样本)及其前缀变体(使用1到10个固定的少量示例)作为输入。对于每个输入,论文收集(i)输入相对于基础提示的内在维度变化,其中内在维度在最后一层计算,以及(ii)LLM生成输出的正确性。论文通过提示Mixtral 8 x 22B Instruct模型来评估生成的响应。论文观察到,内在维度变化越大,从LLM获得正确响应的概率越高    

几何视角下的大语言模型推理-AI.x社区

图7:随机标记的消融研究。关于相对ID变化的正确响应百分比,即推理或提取,针对Llama3 8B Instruct模型与随机(左)和打乱的少量示例文本(右)。与图6类似,论文将GSM8K-Zero数据集中带有错误响应的输入基础提示示例(约300个样本)及其通过随机采样标记或少量示例中排列文本获得的预置变体作为考虑对象。论文观察到,示例中的ID增加有限(< 60),甚至在随机标记情况下为负。因此,获得正确响应的百分比达到饱和,平均约为40%,这与8B模型和少量示例的情况相似

这些标记,预测中的近似误差越小。一个未在此处及大多数工作中探讨的方面是,这些概念如何与LLM的泛化能力(如果有的话)相关联。

在LLM中,将额外上下文纳入提示可以增加模型的内在维度,特别是当上下文与问题紧密相关时。这种ID的增加导致由MLP产生的分段仿射映射数量增加。值得注意的是,在LLM中,由自注意力机制输出的每个标记都独立地由ML进行变换。因此,具有更精细分区方案的MLP将对每个标记应用更适应性的仿射映射。    

几何视角下的大语言模型推理-AI.x社区

从近似的角度来看,由于模型的预测是通过线性组合这些嵌入的token形成的,近似误差可以在token之间累积。因此,在token周围进行更精细的分区可以减少最终预测中的近似误差。

这项工作以及大多数相关研究中一个尚未深入探讨的有趣方面是,这些对内在维度和仿射映射分区的几何洞察如何与 LLM 的泛化能力相关联。这种联系可以为这些模型在各种环境中的鲁棒性和适应性提供有价值的见解。

本文转载自 AI帝国​,作者: 无影寺

收藏
回复
举报
回复
相关推荐