多模型协作增强模型推理能力 原创
01、Corex Pushing the boundaries of complex reasoning through multi-model collaboration
Corex:通过多模型协作推动复杂推理的边界
摘要:大型语言模型(LLMs)正以前所未有的速度发展,并在拥有世界知识的自然语言处理(NLP)领域展现了相当的能力。受益于超大规模的训练语料库,单一的LLM能够胜任典型的NLP任务。然而,其在执行复杂任务时的表现仍受到其内部表示的局限性约束。为进一步突破这一边界,我们引入了Corex,这是一套将LLM转变为自主代理的新型通用策略,率先进行多代理协作以解决任务。受人类行为启发,Corex由包括讨论、审查和检索模式在内的多种协作范式组成,共同致力于增强推理过程。这些范式促进了任务无关的方法,使基于LLM的代理能够“跳出框框思考”,从而克服常见错误并提供更好的解决方案。通过对四种不同类型推理任务的大量实验,我们证明了协调多个代理协同工作比现有的强方法能够产生更好的结果。进一步的分析揭示了Corex的成本效益,同时探索了不同规模模型之间的协同作用,并促进了注释效率的提高。
图片
图1:在使用链式思维提示(CoT)和程序辅助语言模型(PAL)进行推理任务时,LLMs中常见的三种错误。
Corex 是一种通过多模型协作来推动复杂推理能力的框架。其主要原理是将大型语言模型(LLMs)转变为自主代理,并通过多模型协作来解决任务。Corex 的设计灵感来源于人类行为,尤其是多种认知过程的交互和合作。通过引入“讨论”(Discuss)、“审查”(Review)和“检索”(Retrieve)三种主要模式,Corex 提供了一个多模型协作的通用方法,以提升推理过程的准确性和可靠性。
Corex 的核心原理:
- 讨论模式(Discuss Mode):在讨论模式中,LLM 代理被随机分为两组,每组进行多轮讨论,以细化推理链和预测结果。通过这种动态交互,代理可以不断修改他们的观点并达成共识,最终由一个裁判(Judge)评估并决定最优的答案。
- 审查模式(Review Mode):审查模式通过多轮审查和反馈来改进初始推理链和代码。一个主要代理生成初步的推理链和预测结果,其他代理逐轮审查并提供改进意见,最终得出更为可靠的答案。
- 检索模式(Retrieve Mode):检索模式旨在从多个推理链和预测结果中选择最符合事实的组合。检索代理通过对比推理链与预测结果的一致性,评分并选择最可靠的答案。
Corex 在多个推理任务中表现优异,尤其是在数学推理、符号推理、常识推理和半结构化推理任务中,展示了较强的性能提升。此外,Corex 还在成本效益和注释效率方面具有显著优势。
这种协作方法旨在超越单一模型推理的局限,通过多模型的相互协作,解决复杂的推理任务。
图片
图2:Corex的直观示意图,展示了利用基于LLM的代理协作解决问题的过程。策略包括讨论、审查和检索模式,利用推理过程和代码生成。该框架促进了模型之间的互动,营造出一个协作环境,以得出一个经过充分推理的答案。
使用 Corex 框架的具体例子:
任务:假设我们有一个数学推理问题:
“Vincent 买了 10 本关于动物的书,1 本关于外太空的书,3 本关于火车的书。每本书的价格是 16 美元。Vincent 总共花了多少钱?”
我们可以使用 Corex 的三个模式来处理这个问题。
- 讨论模式(Discuss Mode)
在讨论模式下,多个 LLM 代理被分为两组,每组进行讨论以推导出答案。
- 第一轮讨论:
- 代理1:Vincent 总共买了 14 本书(10 + 1 + 3),所以他花了 14 16 = 224 美元。
- 代理2:Vincent 买了 10 + 1 + 3 = 14 本书,花费了 224 美元。
两个代理都同意答案是 224 美元。
- 第二轮讨论:
- 代理3:Vincent 买了 14 本书,所以花了 14 16 = 224 美元。
- 代理4:Vincent 买了 14 本书,花费了 224 美元。
两组的答案一致,讨论结束,裁判代理确认最终答案为 224 美元。
- 审查模式(Review Mode)
在审查模式下,一个代理生成初始答案,其他代理对其进行审查和改进。
- 初始代理生成答案:
- 代理1:计算总价为 14 16 = 224 美元。
- 审查代理检查答案:
- 代理2:检查发现计算是正确的,没有错误。
- 代理3:再次检查并确认 224 美元是正确的答案。
最终,经过审查的答案仍然是 224 美元。
- 检索模式(Retrieve Mode)
在检索模式下,多个代理独立生成答案,然后由检索代理选择最可靠的答案。
- 代理们独立生成答案:
- 代理1:14 16 = 224 美元。
- 代理2:计算错误,给出了 160 美元的错误答案。
- 代理3:正确计算出 224 美元。
- 代理4:再次计算出正确的 224 美元。
- 检索代理选择最可靠的答案:
- 检索代理分析所有答案,发现代理1和代理3的答案一致且正确,因此选择 224 美元作为最终答案。
通过这些模式的协同工作,Corex 框架能够有效地减少错误并提升答案的可靠性。即使某个代理给出了错误的答案,其他代理通过讨论、审查和检索可以纠正这些错误,确保最终的答案是正确的。
Sun Q, Yin Z, Li X, et al. Corex: Pushing the boundaries of complex reasoning through multi-model collaboration[J]. arXiv preprint arXiv:2310.00280, 2023.
Shark-NLP, Shanghai AI Laboratory
Fudan University
National University of Singapore
East China Normal University
The University of Hong Kong
————————————————————————————————————
02、Brainstorming Brings Power to Large Language Models of Knowledge Reasoning
头脑风暴为大型语言模型的知识推理赋能
摘要:大型语言模型(LLMs)在语言生成、文本理解和知识推理方面展现了惊人的能力。虽然单一强大的模型已经能够处理多种任务,但依赖单一视角可能导致结果的偏差和不稳定。最近的研究通过引入多模型协作进一步提升了模型在广泛任务上的推理能力。然而,不同能力的模型可能会在同一问题上产生冲突的答案,如何合理地从多个候选模型中获得正确答案成为一个具有挑战性的问题。本文提出了一种基于提示的多模型头脑风暴方法。它将不同模型纳入一个团队进行头脑风暴,通过多轮推理阐述和重新推理,最终在团队内达成共识答案。我们在三种不同类型的数据集上进行了实验,结果表明头脑风暴显著提升了逻辑推理和事实提取的有效性。此外,我们发现两个小参数模型通过头脑风暴可以达到接近大参数模型的准确性,这为大型语言模型的分布式部署提供了一种新的解决方案。
图片
原理:
- 多模型头脑风暴
- 核心思想:方法论的核心是利用多种异构的大型语言模型(LLMs)进行头脑风暴。通过结合不同模型在不同语料库上训练所展现的多样化优势,提升推理表现。
- 过程:
- 首先,将问题呈现给多个模型,而不提供额外的上下文信息。
- 如果模型给出不同的答案,将其他模型的推理过程整合到下一轮的提示中。
- 这个迭代过程会持续进行,模型之间共享各自的推理,最终目标是达成共识。
- 头脑风暴中的共识
- 达成共识:这个过程会持续进行,直到所有模型给出相同的答案,或者达到最大头脑风暴轮数(由
max_brainstorming_round
参数定义)。 - 最终答案:如果在最大轮数后仍未达成共识,则选择模型中最常见的答案作为最终结果。这确保了最终答案能够反映所有模型的集体推理。
- 对话截断策略
- 效率管理:为了管理对话长度并确保处理效率,方法论中包括了对话截断策略。仅保留最新的几轮对话用于进一步的头脑风暴。
- 影响:这一策略有助于减少输入的词元长度,加快头脑风暴过程,同时不影响推理的准确性。
- 整体方法
- 自动提示:与传统的手动提示方法(如思维链CoT)不同,头脑风暴方法通过利用不同模型的输出作为其他模型的提示,减少了手动标注的需求。
- 知识交换:该方法促进了模型之间的知识交换,从而带来更健壮和准确的推理过程。
这种方法旨在利用多个LLM的集体智慧,提升复杂推理任务中的准确性和可靠性。
图片
例子:
假设我们有一个数学问题:"如果弗雷德里克有10株植物,托尼的植物比弗雷德里克多60%,而香卓拉比托尼少7株,香卓拉有多少株植物?"
- 第一轮头脑风暴
- 模型A 经过推理后回答:香卓拉有 9株植物。
- 模型B 经过推理后回答:香卓拉有 19株植物。
- 模型C 经过推理后回答:香卓拉有 9株植物。
在这轮中,模型A和模型C给出的答案是相同的,但与模型B不同。
- 第二轮头脑风暴
- 现在,模型A、B和C相互分享了它们的推理过程。例如,模型B可能得知其他两个模型的推理步骤,并发现自己的计算有误。
- 模型B 经过再次推理后更新答案:香卓拉有 9株植物。
- 达成共识
- 在第二轮中,所有模型都达成了一致的答案:香卓拉有 9株植物。
- 对话截断策略
- 由于不需要保留所有轮次的对话,只保留最后一轮的推理过程,从而减少计算开销。
- 最终答案
- 经过两轮头脑风暴,最终所有模型达成共识,得出一致答案:香卓拉有9株植物。
这个例子说明了如何通过多个模型的头脑风暴,从一开始的不同答案,通过相互分享和修正推理,最终达成共识并得出正确答案。这种方法尤其在面对复杂的逻辑推理或需要精确知识的场景中,显著提高了推理的准确性。
Qin Z, Wang C, Qin H, et al. Brainstorming Brings Power to Large Language Models of Knowledge Reasoning[J]. arXiv preprint arXiv:2406.06561, 2024.
Beijing Nomal University
————————————————————————————————————
03、EffiQA Efficient Question-Answering with Strategic Multi-Model Collaboration on Knowledge Graphs
EffiQA:基于知识图谱的多模型协作高效问答框架
摘要:尽管大型语言模型(LLM)在自然语言处理方面表现出显著的能力,但它们在涉及知识图谱(KG)的复杂多步推理任务中仍然表现不佳。现有的将LLM与KG结合的方法要么未能充分利用LLM的推理能力,要么由于紧密耦合导致了高昂的计算成本。为了解决这些问题,我们提出了一种名为EffiQA的新型协作框架,它通过迭代的方式在性能和效率之间取得平衡。EffiQA包括三个阶段:全局规划、有效的KG探索和自我反思。具体来说,EffiQA利用LLM的常识能力,通过全局规划来探索潜在的推理路径。然后,它将语义剪枝任务卸载给一个小型插件模型,以实现高效的KG探索。最后,探索结果会被反馈给LLM进行自我反思,从而进一步改进全局规划和KG探索。多项KBQA基准测试的实验证据表明,EffiQA在推理精度和计算成本之间实现了最佳平衡。我们希望所提出的新框架能够通过重新定义LLM与KG的整合方式,为高效的知识密集型查询开辟道路,并促进未来在基于知识的问答领域的研究。
图片
原理:
EffiQA是一种新型的协作框架,旨在通过战略性的多模型协作来提高在知识图谱上的问答效率。该框架主要包括三个阶段:全局规划、有效的知识图谱(KG)探索和自我反思。下面是每个阶段的详细原理:
- 全局规划:在这个阶段,大型语言模型(LLM)利用其常识能力来对问题进行分解,将其转化为若干语义上连贯的路径,并生成探索指令,以便在知识图谱的结构限制之外,探索潜在的推理路径。这一阶段的目的是扩展搜索空间并识别可能的推理路径。
- 有效的知识图谱探索:在这一阶段,通过一个小型插件模型来进行语义剪枝,从而在知识图谱搜索过程中去除不相关的节点和路径。该插件模型根据全局规划阶段生成的探索指令,执行广度优先搜索和语义匹配。这个过程可以理解为在一个智能代理中使用了增强的查询策略,该策略能够在语义上有效剪枝并仅扩展最有希望的图谱区域,从而显著减少搜索空间。
- 自我反思:在完成探索之后,LLM会对探索结果进行自我反思,从而优化全局规划和知识图谱探索。这一阶段的目标是通过反复迭代的方式,进一步改进全局规划和探索策略,确保最终的答案既准确又有效。
通过这种迭代的方式,EffiQA能够在提高推理准确性的同时,降低计算成本。它通过将LLM的全局指导与知识图谱的受限语义剪枝紧密结合,实现了较为平衡的整合,从而在KBQA(基于知识库的问答)任务中重新定义了高效知识密集型查询的标准。
实验结果表明,EffiQA能够在多个基准数据集上取得较好的平衡,既提高了推理精度,也降低了计算成本。这种方法不同于以往的紧密耦合或松散耦合的方法,通过结合LLM和KG的优势,既提升了推理性能,又改善了操作效率。
图片
图2:EffiQA的示例工作流程包括三个阶段。在第一阶段,LLM将问题分解,并根据问题的逻辑生成包含模拟答案和操作的指令。在第二阶段,EffiQA使用插件模型来执行这些指令,进行高效的知识图谱(KG)探索,并通过策略发现探索中的问题。在第三阶段,LLM对探索过程中的问题进行反思,执行自我迭代的重新规划,并在提供足够信息后输出答案。
一个具体的例子来说明其运作过程:
例子:假设我们想要回答一个复杂的问题:“2023年获得Seal商业可持续性奖的公司中,哪位CEO最年长?”
- 全局规划:
- 首先,EffiQA会使用LLM对这个问题进行分解。例如,LLM可能会将问题分解为几个子问题:“2023年获得Seal商业可持续性奖的公司有哪些?”、“这些公司的CEO分别是谁?”、“这些CEO的出生年份是多少?”
- LLM会生成一系列探索指令来指导后续的知识图谱搜索,比如:“在知识图谱中搜索与Seal奖相关的公司”,“查找这些公司的CEO信息”,“找到这些CEO的出生年份”。
- 知识图谱探索:
- 使用插件模型(一个小型的语义剪枝模型)来在知识图谱中执行搜索。该模型会根据LLM生成的指令,进行广度优先搜索并进行语义剪枝。
- 插件模型可能首先找到与Seal商业可持续性奖相关的公司节点,然后继续搜索这些公司的CEO,并进一步探索这些CEO的出生日期。
- 例如,插件模型可能发现三个CEO分别是Bob、Alice和Charlie,他们的出生年份分别是1965年、1970年和1958年。
- 自我反思:
- EffiQA会回顾探索的结果并进行反思,以优化回答流程。LLM将会检查每一个推理路径,以确保其与初始问题一致,并对结果进行综合分析。
- 在这个例子中,LLM会比较发现的出生年份,最终得出结论:1965年出生的Bob Jordan是最年长的CEO。
- 如果在这一过程中出现了路径剪枝不当或信息不足的问题,LLM会重新规划和迭代探索,直到找到最优解。
最终答案:通过上述步骤,EffiQA最终得出答案:“在2023年获得Seal商业可持续性奖的公司中,最年长的CEO是Bob Jordan。”
这个例子展示了EffiQA如何通过全局规划、有效的知识图谱探索和自我反思,逐步缩小搜索空间,并最终高效地找到准确答案的过程。
Dong Z, Peng B, Wang Y, et al. EffiQA: Efficient Question-Answering with Strategic Multi-Model Collaboration on Knowledge Graphs[J]. arXiv preprint arXiv:2406.01238, 2024.
National Key Laboratory of Parallel and Distributed Computing, College of Computer Science and Technology
National University of Denfense Technology
本文转载自公众号AIRoobt ,作者:AIRoobt
原文链接:https://mp.weixin.qq.com/s/uxB7DOuCGMimQoQlZ_Pz8g