融合、集成与协作!大语言模型时代的协作策略综述 原创 精华

发布于 2024-12-27 10:03
浏览
0收藏

摘要:

大语言模型(LLMs)的显著成功将自然语言处理(NLP)研究带入了一个新时代。尽管其功能多样,但基于不同语料库训练的LLMs表现出各自的优势与劣势,这对提升其整体效率与多功能性提出了挑战。为了解决这些挑战,近期的研究探索了LLMs的协作策略。本文对这一新兴研究领域进行了全面综述,阐述了协作研究的动机。具体而言,我们将协作策略分为三种主要方法:融合、集成与合作。融合涉及在参数空间内整合多个LLMs;集成结合了不同LLMs的输出;合作利用不同LLMs的多样化能力以完成特定任务。本文从多个角度深入介绍了这些方法,并讨论了它们的潜在应用。此外,我们还概述了未来的研究方向,希望本工作能够催化更多关于LLMs协作的研究,并为先进的NLP应用铺平道路。

1.引言

“众人拾柴火焰高。”——约翰·海伍德

人类自古以来就深刻理解协作的力量。当个体结合其多样化的技能与努力时,能够实现远超单独行动的成果。这种集体协作的原则,在机器学习领域再次焕发了新生命(Dietterich, 2000; Panait和Luke, 2005; Sagi和Rokach, 2018),极大地推动了人工智能的发展。

融合、集成与协作!大语言模型时代的协作策略综述-AI.x社区

 图1:最近,许多大型语言模型被发布,每个模型都具有其独特的优势。这种多样性推动了关于这些模型协作的研究。

近年来,大语言模型(LLMs)(Brown等, 2020; Chowdhery等, 2023)成为人工智能中发展最快、最有前景的方向之一。这些模型显著改变了自然语言处理(NLP)的范式(Min等, 2023a; Chang等, 2024; Zhao等, 2023),并对其他领域产生了深远影响(Wu等, 2023a; Zhang等, 2024a)。这场革命性的变革激励了众多大学、研究机构和公司预训练并发布了各自的LLM模型。目前,HuggingFace模型平台上已提供超过74,000个预训练模型。这些模型通过多样化的数据、架构和方法训练,展现出独特的能力:一些擅长多语言任务(Le Scao等, 2023; Lin等, 2022),一些专注于医学(Yang等, 2024b)或金融领域(Wu等, 2023b),另一些则擅长处理长上下文窗口(Chen等, 2023e,f),还有一些经过微调以更好地与人类互动(Ouyang等, 2022)。然而,没有单一模型在所有任务上表现始终优于其他模型(Jiang等, 2023a)。这种差异性激发了关于不同LLM之间协作的研究,旨在释放其联合潜力,就像打造一个“六边形战士”一样。

尽管LLM协作研究取得了一些进展,但现有方法之间的关系和上下文仍不够清晰。本综述旨在填补这一空白,通过将协作技术归类为三种主要方法:融合(Merging)、集成(Ensemble)和合作(Cooperation)。具体而言,LLM的融合与集成方法源于机器学习中常见的传统融合技术(Li等, 2023a)。这些方法经过调整后,更适合LLMs,能够有效利用多样化LLM的协作优势。融合涉及将多个LLM的参数整合为单一、统一的模型,这要求参数在线性空间中具有兼容性。相比之下,集成方法聚焦于组合不同LLM生成的输出,以产生连贯的结果,而对单个模型参数的关注较少。合作方法超越了融合与集成,专注于利用LLM的多样化优势以实现特定目标。这些技术总体上扩展了模型协作的方法,对于LLM研究具有重要意义。

本研究的结构如下:我们首先在第2节中提供LLM的背景信息,并定义其协作技术。接下来,我们在第3、4和5节中分别介绍三大关键类别:融合、集成和合作。每一类方法都经过详细分类和深入描述,提供对其框架及应用的清晰理解。最后,我们在第6节中进行综合讨论,强调研究面临的挑战与未来方向。

2.背景

2.1 大语言模型(LLMs)

语言建模一直是自然语言处理(NLP)的基石。最近,许多研究通过扩展基于Transformer的语言模型(Vaswani等, 2017;Radford等, 2018),实现了数十亿以上参数的显著增长,例如GPT-3(Brown等, 2020)、PaLM(Chowdhery等, 2023;Anil等, 2023)和LLaMA(Touvron等, 2023a,b)。由于其巨大的参数量,这些模型通常被视为大语言模型(LLMs)(Zhao等, 2023)。本节将讨论LLMs的架构与扩展、其训练目标以及所展现的涌现能力。

架构与扩展

与预训练语言模型(PLMs)(Radford等, 2018;Devlin等, 2019)相似,LLMs主要采用Transformer架构(Vaswani等, 2017)作为其骨干架构,由多头注意力和前馈层堆叠而成。与PLMs不同,目前发布的大多数LLMs基于仅解码架构进行训练,以提高训练效率并支持少样本能力。这种方法在参数数量增加时也展现了潜力(Zhang等, 2022)。最近的研究还探讨了模型容量、训练数据量和模型规模之间的量化关系,即扩展定律(Kaplan等, 2020;Hoffmann等, 2022)。

训练目标

在PLMs的早期研究中,提出了各种语言建模任务,例如BERT(Devlin等, 2019)的掩码语言建模、BART(Lewis等, 2020)和T5(Raffel等, 2020)的去噪语言建模。然而,目前的LLMs通常采用标准的因果语言建模作为其训练目标,旨在基于序列中的前序词预测下一个词。这一训练目标非常适合仅解码架构。

除了预训练目标,近期研究还致力于建模人类偏好,以更好地使LLMs与人类期望保持一致。例如,著名的InstructGPT(Ouyang等, 2022)引入了来自人类反馈的强化学习(RLHF),将偏好奖励作为附加训练目标。尽管RLHF在使LLMs对用户更有帮助方面非常有效,但不可避免地会导致“对齐成本”,即RLHF后性能的下降。最近的研究探索了各种技术以缓解对齐成本问题(Lin等, 2023;Lu等, 2024b;Fu等, 2024b)。

融合、集成与协作!大语言模型时代的协作策略综述-AI.x社区

涌现能力

语言模型的基本能力是文本生成,利用贪婪搜索或核采样方法(Holtzman等, 2020a)基于前序词递归生成词语:yi∼p(yi∣y<i)

令人惊讶的是,LLMs不仅能够生成逼真的文本,还能在不需要对特定下游任务进行微调的情况下,通过提供特定任务提示来执行特定任务(Brown等, 2020)。这一现象是LLMs与以前的PLMs之间最重要的区别之一。Wei等(2022b)将涌现能力定义为“在较小的模型中不存在但在较大模型中出现的能力”。在这些涌现能力中,情境学习(ICL)(Brown等, 2020;Dong等, 2022)和指令遵循是常用的,并显著增强了LLMs处理各种任务的能力。

情境学习通过使用一些任务示例作为示范帮助LLMs理解任务。当将这些示范作为提示提供时,LLMs可以自动生成给定测试示例的合理输出,其公式化如下:p(y∣x)=p(y∣x,demonstration({(xi,yi)}i=1k))

指令遵循能力通常出现在已经针对多任务指令示例进行了微调的LLMs中。生成过程可以公式化为:p(y∣x)=p(y∣x,I)

其中 I表示给定示例x的指令。指令微调技术(Sanh等, 2021;Ouyang等, 2022;Wei等, 2022a)能够增强LLMs的泛化能力,使其能够在多种任务上表现良好,包括未见任务(Thoppilan等, 2022)。

2.2 对LLMs的协作

对于以前的任务依赖型NLP模型,协作策略通常旨在提高特定任务的性能(Jia等, 2023)。最近,LLMs通过在广泛任务中的显著多功能性彻底改变了NLP。这一转变也将LLMs协作策略的重点转向增强多功能性和实现更通用的目标。因此,最近提出的一些协作策略变得更加灵活,并专门为LLMs量身定制。

LLMs协作的必要性

尽管几乎所有LLMs都通过情境学习和指令遵循表现出在各种任务中的强大多功能性,但不同的LLMs仍然具有不同的优势和劣势(Jiang等, 2023a)。

不同LLMs家族(例如LLaMA、GLM(Zeng等, 2023)和QWen(Bai等, 2023))之间的训练语料和模型架构差异导致了其能力的显著差异。即使在同一家族内,针对特定语料库(例如数学(Azerbayev等, 2023)、代码(Roziere等, 2023)或医学领域(Wu等, 2024))的微调也会带来显著的性能差异。通过有效的协作,可以释放这些LLMs的潜力,显著增强其整体性能和多功能性。

此外,大语言模型(LLMs)不可避免地存在计算效率低下(Zhou等, 2024c)、幻觉现象(Rawte等, 2023;Ji等, 2023;Huang等, 2023)以及隐私泄露(Fan等, 2024)等问题。最近的研究探索了LLMs之间的协作策略,这为缓解这些问题和弥补其缺陷提供了潜在的解决方案。

LLM协作方法的分类

LLMs之间的协作是指多个LLMs协同工作,利用其各自的优势和能力以实现共同目标。在本综述中,我们将LLMs协作方法分为三个方面:融合(Merging)、集成(Ensemble)和合作(Cooperation)。如图2所示:

  • 融合:通过在模型参数空间内进行算术操作,将多个LLMs整合为一个统一且更强大的模型。
  • 集成:结合不同模型的输出以获得连贯的结果。近期的研究提出了多种专为LLMs设计的集成方法。
  • 合作:这是一个相对广泛的概念。本综述重点介绍合作方法,这些方法利用不同LLMs的多样化能力来完成特定目标,例如高效计算或知识转移。

需要注意的是,从融合到集成再到合作,对LLMs的要求逐渐放宽,使得所提出的方法越来越灵活。具体而言:

  • 融合方法仅在LLMs具有兼容的参数空间时有效,从而实现无缝整合。
  • 集成方法要求LLMs具备多样化但可比较的能力;如果缺乏这种平衡,集成可能效果较差。
  • 合作方法则更加灵活,重点在于利用LLMs的多种能力,这些能力是专门设计用于实现特定目标的。

对于每个类别,我们根据其重点或实施阶段进一步分类具体方法。全面的分类如图3所示。

融合、集成与协作!大语言模型时代的协作策略综述-AI.x社区

3.融合

单个模型固有的局限性,如可能遗漏重要信息(Sagi和Rokach,2018)以及容易陷入局部最优或缺乏多任务能力,促使研究人员探索在参数空间中融合多个模型以创建统一、更强大的模型的方法。近年来,模型融合取得了显著进展,各种技术在现有综述(Li等,2023a)中有所记录。在LLMs时代,模型融合已成为模型合作的重要解决方案,通常采用基本的融合方法并证明其有效性。本节重点介绍对LLMs有效的融合技术。当前对模型融合的研究通常关注两个关键问题:融合以接近相对最优解(M-ROS)和融合以增强多任务能力(M-MTC)。M-ROS的研究基于以下发现:梯度优化的解通常在宽平坦区域的边界附近收敛,而不是在中心点(Izmailov等,2018)。模型融合提供了一种接近这一相对最优点的方法,从而产生更强大的模型。另一方面,M-MTC旨在利用模型融合技术使单个模型具备跨多个任务的能力(Ilharco等,2023;Yadav等,2023)。在接下来的小节中,我们将介绍每个目标的技术及其在LLMs中的应用。重要的是,对于M-ROS和M-MTC,当前的模型融合方法仅适用于具有相同架构且参数在同一空间内的模型。因此,大多数候选模型M={M1,M2, · · · ,Mk}应从相同的预训练模型M0进行微调。这一要求确保了模型参数的兼容性和一致性,促进了成功的融合。不幸的是,对于参数不兼容的模型,如LLaMA和QWen,当前的融合技术无效。

3.1融合以接近相对最优解(M-ROS)

机器学习模型,尤其是深度学习模型,在训练过程中往往无法达到精确的最优解(Li等,2023a)。研究者们发现,现代深度神经网络的局部最优解通过简单的曲线相连,这些曲线上的路径能够保持较低的损失。这表明,权重空间中的不同局部最优解并非孤立存在,而是可以通过低损失路径相互连接(Garipov等,2018)。通过加权平均方法获得的模型可以视为低损失路径上的一个点。参数平均通过平均不同的局部最优解,整合了各种模型的优势,从而减少了单个模型的偏差和方差(Rame等,2022)。为了提升模型性能,提出了M-ROS方法,这些方法旨在通过融合多个模型的参数,将相对优化的点融合成一个更优的模型。我们将这些方法分为两类:简单平均和加权平均。尽管这些技术最初是为小型深度模型开发的,但它们对LLMs同样有效。接下来,我们将首先介绍基本的M-ROS方法,然后讨论它们如何应用于LLMs。

3.1.1 基本的 M-ROS 方法

简单平均

简单参数平均是一种将多个微调模型的参数以相等的系数进行组合的方法,从而创建一个更强大的模型(Guo等,2023)。实证证据表明,这些融合后的模型在准确性、鲁棒性和稳定性方面通常优于单个模型。对于k个候选模型\( M = \{M_1, M_2, \cdots, M_k\} \),简单参数平均可以形式化为:

融合、集成与协作!大语言模型时代的协作策略综述-AI.x社区

其中\( \theta_{M_i} \)表示第i个模型的参数,\( \theta^ \)是融合后的参数。为了最大化多个模型的优势,Model Soup(Wortsman等,2022)引入了Uniform Soup和Greedy Soup。Uniform Soup简单地平均模型参数,而Greedy Soup一次添加一个模型到池中,确保每个新模型要么提高要么保持在验证集上的性能。同样,DiWA(Rame等,2022)根据候选模型在验证集上的性能进行排名,并仅在它们增强性能时添加新模型。通常,Greedy Soup和DiWA通过选择的模型参数平均来进行推理。

加权平均

加权平均允许根据模型的重要性或质量为不同模型分配不同的系数,以实现更优的融合效果。对于经过显著不同权重微调的训练网络,简单的平均方法通常表现不佳(Singh和Jaggi,2020)。因此,为不同模型选择合适的融合系数成为关键因素。加权平均可以形式化为:

融合、集成与协作!大语言模型时代的协作策略综述-AI.x社区

其中,\( \alpha_i \)是候选模型\( M_i \)的归一化系数。目前,有几种方法可用于找到最优的融合系数。例如,Learned Soup(Wortsman等,2022)在验证集上优化混合系数,以最小化损失函数,从而结合多个模型的优势,提升整体性能。Matena和Raffel(2022)提出利用Fisher信息矩阵来衡量经过不同随机种子微调的模型的参数重要性,并使用这些重要性分数作为系数进行融合。此外,Jang等(2024)提出了一种基于几何关系的方法,根据参数之间的角度发散对微调模型进行插值。

3.1.2 适应 LLMs

上述模型融合技术已成功应用于LLMs,以实现获得更强的LLMs和增强RLHF的目标。

获得更强的LLMs

为了获得更强的LLMs,一些研究提出了针对LLMs的新方法。Wan等(2024b)建议根据微调前后参数矩阵的变化率来计算融合系数。同样,Liu等(2024b)提出利用LLMs在预训练过程中保存的检查点,结合贝叶斯优化来导航广泛的搜索空间并识别最优的融合系数。为了解决梯度不匹配问题,Lin等(2023)引入了一种自适应方法,为模型的不同层分配不同的组合比例,优化这些组合以平衡人类偏好对齐和预训练能力。其他研究采用现有的模型融合技术,为特定目标创建更强的LLMs。例如,Fu等(2024a)提出了一个分散-融合框架,首先使用不同的指令微调数据部分训练多个子模型,然后通过加权融合将它们融合成一个具有多方面能力的单LLM。

增强RLHF

模型融合技术还有助于提升LLMs与人类偏好的对齐。Lin等(2023)提出了一种自适应方法,为模型的不同层分配不同的组合比例,优化这些组合以平衡人类偏好对齐和预训练能力。Ram’e等(2024)提出微调多个奖励模型,然后通过平均它们的参数来创建一个与人类偏好对齐更好的高级奖励模型。同样,Fu等(2024b)使用加权平均方法在监督微调(SFT)期间改进LLMs的对齐,有效减少数据偏差的影响。Lu等(2024b)提出使用模型融合技术在RLHF训练期间减少对齐税。

3.2 通过 M-MTC 增强多任务能力

最近,一些研究尝试通过融合具有不同能力的模型来构建一个具有多任务能力的统一模型。这些模型通常从相同的预训练模型出发,但使用不同的任务特定数据进行微调,导致它们的参数空间出现分歧。M-MTC方法旨在缓解这种分歧,实现模型的平衡融合,从而产生一个能够处理多个任务的单一模型。早期研究通过为不同模型分配不同的融合系数来解决分歧问题(第3.2.1节,加权平均),而当前研究更倾向于从分歧中提取任务属性,以实现更灵活的融合(第3.2.2节,任务属性)。此外,最近的工作开始采用增量学习技术来增强模型融合性能(第3.2.3节,增量学习)。我们将在以下小节中分别介绍这些方法。

3.2.1 基于加权平均的方法

一些研究采用加权平均策略(见第3.1.1节)来调整不同模型的重要性。Jin等人(2022)提出了一种名为RegMean的方法,该方法选择性地整合Transformer模型的线性层,同时对其他层使用简单的平均方法,从而最小化融合模型与在不同数据集上微调的多个模型之间的偏差。Daheim等人(2023)建议利用从Hessian矩阵导出的估计值来优化模型融合,实现对模型参数的更精确调整。Nathan等人(2024)将Fisher加权平均与模型剪枝相结合,以高效地进行模型融合。

3.2.2 基于任务属性的融合方法

基于加权平均的融合方法强调参数的重要性,但忽略了它们的任务特定属性,这在某些任务上可能导致显著的性能下降。Ilharco等人(2023)发现,“简单平均会导致10%的性能下降”。为了解决这一问题,最近的研究引入了一种称为任务向量的新范式。Ilharco等人(2023)定义任务向量τt  为“一个向量,指定了预训练模型参数空间中的一个方向,沿此方向移动可以提高任务\( t \)的性能”,形式化为:

融合、集成与协作!大语言模型时代的协作策略综述-AI.x社区

其中,\( \theta_{\text{ft}_t} \)是在任务t的特定数据上微调的参数,而\( \theta_{\text{pre}} \)是预训练模型的原始参数。

任务向量可以更有效地解决模型融合期间的参数冲突。如图4所示,以预训练模型为参考,微调模型的任务向量方向的变化表明了参数空间中的冲突。为了应对参数冲突问题,最近的研究旨在探索方法以减轻冲突,并在不同模型之间取得平衡。参数冲突方法在相同位置的参数上进行冲突解决,而较少参数方法通过识别和剪枝冗余参数来减少冲突。此外,我们介绍了一个包含一些方法的工具包。

融合、集成与协作!大语言模型时代的协作策略综述-AI.x社区


解决参数冲突

TASK ARITHMETIC(Ilharco等人,2023)最初通过微调参数和预训练参数之间的算术运算推导任务向量,如公式(6)所示。这些任务向量随后用于通过增强目标任务的性能来融合模型。为了进一步解决模型融合中的参数冲突问题,TIES-MERGING(Yadav等人,2023)确定了干扰的两个主要原因:冗余参数值和模型之间的符号不一致。基于这些进展,ADAMERGING(Yang等人,2023)通过考虑不同模型参数的重要性进一步减少了冲突。METAGPT(Zhou等人,2024a)提出了基于ADAMERGING和TASK ARITHMETIC的高效方法。Akiba等人(2024)提出了一种适用于LLMs的融合方法,不仅在参数空间中采用TIES-MERGING进行融合,还采用进化算法优化融合模型内的数据推理路径。上述方法已成功应用于LLMs。Kim等人(2024)将这些方法应用于融合LLMs以获得更强的LLM评估器。Hammoud等人(2024)研究了这些方法对LLM安全对齐的影响。与上述基于任务向量的方法不同,Stoica等人(2024)提出了ZIPIT,该方法从另一个角度保留相似参数。ZIPIT首先识别不同模型之间高度相关的参数,然后在保留显著不同的层的同时融合这些参数,从而提高融合的灵活性。

3.2.3 基于增量训练的方法

尽管上述方法在一定程度上缓解了性能下降的问题,但仍存在一些不足。因此,一些研究提出了涉及增量训练的方法,以恢复其原始性能。具体而言,Concrete TA/AM(Tang等人,2023)旨在模型参数空间内找到一个共享的低维子空间,以最小化任务干扰,同时不影响性能。Surgery(Yang等人,2024a)引入了一种表示手术技术,以减轻多任务模型融合中的表示偏差。

4. 集成

集成学习是另一种有效的合作策略,与模型融合方法不同,它侧重于模型输出的组合。传统的技术如Adaboost(Freund和Schapire,1997)、Bagging(Breiman,1996)和Stacking(Wolpert,1992)在机器学习研究中取得了显著进展。在LLMs时代,集成学习依然至关重要,能够提升各种LLMs的整体性能。

然而,LLMs通常通过文本生成来解决各种任务,产生更灵活和自然表达的输出。因此,为分类任务设计的传统集成方法不能直接应用于LLMs。为了解决这个问题,许多研究探索了针对各种LLMs的特定集成方法。此外,集成学习的好处激发了对这些技术在各种应用中的研究。在以下部分中,我们将详细介绍LLM集成方法和应用。

4.1 LLM 集成方法

对于不同的输入,表现最佳的LLM并不总是相同的,这促使人们广泛研究LLM的集成方法。与基于分类的机器学习模型不同,LLMs通常生成一系列离散的令牌作为输出,这使得直接集成具有挑战性。此外,不同LLMs之间的结构差异导致词汇表和输出分布难以统一,进一步复杂化了集成策略(Xu等人,2024b)。由于集成通常发生在推理期间,我们根据集成发生的时间将现有方法分类为推理前(BEFORE)、推理中(DURING)和推理后(AFTER)的集成方法。如图5所示,推理前的集成方法选择最合适的LLM来处理不同的输入示例,推理中的集成方法在每个解码步骤结合输出,而推理后的集成方法旨在从多个LLM生成的多个输出中选择最佳响应。

融合、集成与协作!大语言模型时代的协作策略综述-AI.x社区


4.1.1 推理前集成

这些方法旨在在推理前为特定示例选择最佳的LLM。与从头开始学习稀疏网络的各种专家混合(MOE)方法(Jacobs等人,1991;Collobert等人,2003;Eigen等人,2013;Fedus等人,2022;Jiang等人,2024)不同,推理前的集成重点在于训练多个预训练LLMs的外部路由器(Rosenbaum等人,2017),以实现LLM的最优选择。

Shnitzer等人(2023)率先探索了使用各种基准数据集学习路由器的可行性和局限性。Lu等人(2023)引入了ZOOTER,一个系统,首先使用奖励模型根据训练集计算查询-输出对的分数。这些分数随后用于使用知识蒸馏策略训练路由器,使其能够仅根据输入查询选择最优的LLM。Ding等人(2024)采用了一个路由器,根据预测的查询难度和所需的质量水平,将查询分配给小型模型或LLMs,显著降低了推理成本。Srivatsa等人(2024)研究了LLMs的分类器基和聚类基路由方法的可行性。受强化学习中自我博弈的启发,Mohammadshahi等人(2024)通过循环使用自我生成的三元组(查询,响应,分数)来训练路由器。与之前的研究不同,Lu等人(2024c)通过在对话中随机选择LLM来集成多个聊天LLMs,而不是学习路由器。为了有效评估路由器的能力和局限性,Hu等人(2024)提出了一个新的基准ROUTERBENCH,主要关注性能和经济成本。

4.1.2 推理期间集成

在推理期间,LLMs以自回归方式生成标记。这一过程通常会导致早期错误随着时间的推移而累积,导致后续标记偏离预期的含义(Ranzato等人,2016),从而产生幻觉(Zhang等人,2023a)。为了解决这个问题,一些研究在每个解码步骤对LLMs进行集成。Li等人(2024c)通过加权平均不可信的LLMs和一个良性的较小LLM的输出分布,结合它们以减轻版权侵权、数据投毒和隐私违反等问题。Hoang等人(2023)通过插值机器翻译模型和LLM的输出分布,提高了翻译性能。Wang等人(2024b)将专家融合问题表述为图最短路径问题,并提出了一种高效的融合方法。

这些方法要求在至少具有相同词汇表的LLMs之间进行集成,以确保输出分布对齐并可以有效插值。然而,大多数开源LLMs是异构的,具有不同的词汇表,这阻碍了直接集成。

为了解决这一问题,Fu等人(2023)采用动态规划递归最小化通过编辑一个标记序列以匹配另一个序列的总成本,使用精确匹配得分。为了进一步提高标记对齐的成功率,Wan等人(2024a)将精确匹配约束替换为最小编辑距离策略。Mavromatis等人(2024)在上述标记对齐的基础上,提出使用困惑度来计算不同LLMs输出的系数。Xu等人(2024b)、Huang等人(2024c)和Yu等人(2024)考虑使用重叠标记作为锚点,将异构LLMs产生的输出分布投影到同一空间。具体而言,Xu等人(2024b)提出直接使用锚点作为桥梁学习不同词汇表之间的投影矩阵,而Huang等人(2024c)和Yu等人(2024)则计算从锚点到不同词汇表的相对表示,从而间接实现词汇表投影。

4.1.3 推理后集成

最终的LLM集成方法在推理后结合生成的输出。一种实现LLM集成的方法是构建LLM级联,以减少仅使用大型LLM的推理成本。Chen等人(2023d)采用按参数数量排序的LLM序列来生成输出,一旦前面的小型LLM产生足够高质量的输出,即停止并返回结果。Yue等人(2024)提出先验证小型LLM生成的答案的正确性,如果初始答案不正确,则利用LLM来解决问题。另一条研究路线集中在从多个LLM生成的多个候选中选择最佳候选。Lee等人(2023)从LLMs生成的多个候选中选择最佳指令,以构建指令调整数据。Jiang等人(2023a)探索了各种无监督指标进行选择,包括BERTScore(Zhang等人,2020)、BLEURT(Sellam等人,2020)、BARTScore(Yuan等人,2021)和ChatGPT分数。然而,他们发现选择的有效性受到候选池质量的限制。为了解决这一问题,Jiang等人(2023a)采用了一个额外的融合模型,使用排名靠前的候选作为输入来生成最终输出。

4.1.4 关于 LLM 集成方法的讨论

上述方法侧重于在推理的不同阶段进行集成,各有优势和劣势。我们从推理速度、集成粒度和局限性方面进行讨论。

推理速度

几乎所有的集成方法都会降低推理速度。推理前的集成由于涉及通过额外的路由器选择最优的LLM,会略微减慢过程。推理中的集成要求每个LLM对测试示例进行前向计算。如果有k个LLMs,推理速度会降低k倍,尽管这可以通过使用k倍的GPU来缓解。推理后的集成不仅需要k倍的计算成本,还需要额外的时间进行输出选择或融合(Jiang等人,2023a),导致推理速度最低。

集成粒度

上述集成方法在不同的粒度上操作。推理前和推理后的集成通常在示例级别工作,提供粗粒度的集成。推理中的集成在标记级别进行,提供细粒度的集成。由于前面的标记会影响后面的标记,这种细粒度的集成可以减少LLMs中的暴露偏差(Ranzato等人,2015;Xu等人,2020),从而更好地提高性能。

局限性

每个类别的集成方法都有特定的局限性,如表1所示。尽管推理前的集成速度较快,但需要额外训练路由器。用于路由器训练的数据会限制这些集成方法的泛化和性能(Shnitzer等人,2023)。推理中的集 成通常受LLMs架构异构性的限制。例如,词汇表的差异会导致输出分布不对应,从而阻碍直接集成(Huang等人,2024c;Yu等人,2024)。推理后的集成通常需要多个LLMs生成多个候选,构建候选池,然后选择或重组最终输出。因此,候选池的准确性和选择策略是主要的局限性。

融合、集成与协作!大语言模型时代的协作策略综述-AI.x社区


表1:不同推理阶段的LLM集成方法的特性。

4.2 LLM 集成应用

除了方法论研究外,许多研究还将LLM集成应用于特定场景。这归因于集成学习在特定任务、领域和强校准方面的能力。我们根据目标对相关研究进行分类。

针对特定任务或领域的LLM集成

针对特定任务的LLM集成通常用于提高特定任务的性能。Si等人(2023)通过训练分类器选择不同推理专家生成的最佳答案,提升了LLM的推理性能。Gundabathula和Kolar(2024)将LLM集成用于SQL生成。一些研究将LLM集成应用于医学任务。Gundabathula和Kolar(2024)采用LLM集成来增强临床文本错误检测和纠正。Oniani等人(2023)和Barabucci等人(2024)分别使用多数投票和平均加权方法,选择最常见的候选疾病。

缓解RLHF过估计的LLM集成

集成学习可以缓解LLMs的校准不良和不可靠预测问题。因此,Eisenstein等人(2023)、Coste等人(2024)和Ramé等人(2024)通过集成多个奖励LLMs来缓解RLHF中的过乐观问题。考虑到基于LLM的奖励模型的微调计算成本较高,Zhang等人(2024c)和Zhai等人(2023)分别使用轻量级的LoRA(Hu等人,2022)来适应LLM到多个奖励模型。Ahmed等人(2024)提出使用共享的LLM但独立的线性层来集成奖励。这些方法成功减少了RLHF中的过估计并提高了对齐性能。


本文转载自公众号AIRoobt ,作者:AIRoobt

原文链接:​https://mp.weixin.qq.com/s/_yVgeDKb8OutSMtlaf6HBw​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐