译者 | 陈峻
审校 | 重楼
最近,麻省理工学院、哈佛大学、斯坦福大学以及 DeepMind 的研究人员联合提出了一种新技术,它使用多个代理(Multiple Agents)来解决大语言模型 (LLM) 最紧迫的问题之一:缺乏高质量的训练数据。毕竟顶尖模型已经消耗了互联网上的大部分可用的内容,并让AI 实验室已经用完了适合训练 LLM 的数据。
解决这一瓶颈问题的一种方案是通过创建合成数据(Synthetic Data)来自我提升,让LLM 生成高质量的范例来训练自己。例如,系统会提示 LLM 解决数学、推理或编码问题。该模型生成推理链和响应、评估结果,并将有效的示例添加到训练数据集中,用于在下一个训练周期中微调模型。
不同的研究表明,这是一种有效但也有限的方法。该方法在几次训练迭代之后会趋于稳定,进而限制了其自我提升方法的适用性。
多代理辩论和微调
为了提高性能,新技术使用了多代理辩论(Multiagent Debate)的概念,即:由多个 LLM 代理一起起草和完善响应。该框架并非微调单个模型,而是使用相同的辩论和改进框架,来生成不同的数据集,并微调多个模型。这些模型往往派生自相同的基本模型,并且每个模型都会得到训练,以被专门用于目标任务的某些部分。
通常,该框架由生成代理和批评代理所组成。其中:
对于每个问题,第一组 LLM(生成代理)会创建初始响应。而生成模型的作用就是准确地回答输入的问题。每个模型都以不同的方式,被提示创建一组不同的推理链与响应。
接着,批评代理会评估所有生成代理的输出,并选择最有效的响应、或生成反馈,以进行改进。在此,批评代理的作用是对 LLM 生成的回答提供准确的批评,并使用这些回答来提供更新的答案。而且,代理可以参与多轮辩论和反馈,以进一步完善答案。
然后,更新的响应和批评被用来创建数据集,以微调生成和批评代理。一旦两组代理都开启了训练,它们就会重复这个循环,以创建更好的响应。为了确保多样性,每个生成代理和批评代理都会根据其交互生成的一组不同的示例进行微调。当这个循环被重复时,它们就会创建出越来越好的数据集,并且每个代理在任务的特定部分都会变得更好。
多代理微调如何克服 LLM 的数据瓶颈-AI.x社区
多代理微调(来源:arXiv)
与经典的自我提升框架不同,基于训练数据所创造的行为多样性,会让训练数据的质量在多轮迭代中不断提升。
研究人员曾写道:“我们发现,多代理微调的迭代应用会促进持续学习和适应,并随着时间的推移,产生逐渐细化且更为准确的响应。同时,研究人员进一步指出,“通过在不同的数据集和角色上训练每个模型,我们的方法促进了模型之间的专业化,并增加了模型社会的多样化。因此,与单一代理的自我提升方法相比,我们的系统可以通过多轮微调实现自主改进。”
多代理微调如何克服 LLM 的数据瓶颈-AI.x社区
多代理微调在多次迭代中继续提高 MATH 基准测试的性能,而单一代理微调则会快速达到平台期(来源: arXiv)
在推理过程中,该框架可以使用生成代理和批评代理的生态系统,来起草多个响应,并通过多代理辩论对其进行提炼。每个代理都能够从所有其他代理那里获取响应,并在每一轮的辩论中生成新的响应。
研究人员还写道:“我们发现,总结其他代理的回答不但有助于消除冗余的信息,而且可以保留最重要的细节,从而进一步提高性能。
多代理微调的实际应用
如下所示,研究人员在算术、小学数学和竞赛级别的数学问题的数个推理基准上,测试了该方法。他们将其与Mistral 7B、Llama 3-8B 和 Phi 3-4B等开源模型,以及 GPT-3.5 一起使用。由于多代理辩论和微调不需要访问模型的内部权重,因此它同时适用于开放和封闭的模型。
多代理微调如何克服 LLM 的数据瓶颈-AI.x社区
结果表明,多代理方法优于包括多数投票(即:模型产生几个独立的答案,并从中选择最佳答案)在内的其他技术,以及那些优化各个代理的答案,而无法经由微调过程的方法。此外,微调后的模型也可以被推广到看不见的任务上,且胜过直接在目标任务上训练模型的基线方法。例如,在 MATH 数据集上微调的代理生态系统,就会在 GSM 基准测试中得到非常出色的表现。
更重要的是,多代理在多次迭代中会持续表现出改进的性能,而其他自我提升的方法则会在几个周期后开始出现退化。
总而言之,由于多代理方法需要多个模型的副本来同时训练和运行,因此它实际上是一种从成本角度给出的权衡方法。虽然 LoRA 和量化等优化技术也可能实现相似的效果,但是就目前而言,多代理微调似乎能够更好地解决 AI 社区所面临的首要问题。
原文标题:How multiagent fine-tuning overcomes the data bottleneck of LLMs,作者:Ben Dickson