优秀基因的演化和重组,是生命体适应环境、永葆活力的自然法则。AI智能体能否像有机生命一样,实现适应任务环境的高效自我演化?
大模型智能体的快速发展在数学、医疗、个人助手等各领域产生了突破性应用,但依赖专家知识的手工设计方法制约了它们的任务自适应能力。如何实现AI智能体针对不同任务场景的高速自我演进一直是一个棘手的难题。
图1 AI智能体的自适应演进
为了解决这一问题,清华大学数据科学与智能实验室提出了「AgentSquare-智能体魔方」,推出了模块化的智能体系统设计与搜索新范式。
标准化的模块接口抽象,使得任务规划、常识推理、工具使用等经典智能体模块的重组如同「拧魔方」一般轻松。同时,演化产生的新颖模块也可被直接组装应用于其他智能体系统。
在网页、具身、工具、游戏等不同场景的六个基准数据集上测试,显示AgentSquare均能高效发现显著优于已知人类设计的新颖智能体系统。「AgentSquare-智能体魔方」开启了模块化智能体设计搜索的「变形金刚」时代。
项目代码、模块库已进行全面开源,简洁指令便可开启AI智能体的高速进化。
论文标题:AgentSquare: Automatic LLM Agent Search In Modular Design Space
论文地址:https://arxiv.org/abs/2410.06153
项目地址:https://tsinghua-fib-lab.github.io/AgentSquare_website/
代码仓库:https://github.com/tsinghua-fib-lab/AgentSquare
「AgentSquare-智能体魔方」——模块化智能体设计的新范式
AgentSquare的关键创新来自于模块化设计空间的提出。研究团队系统梳理了AI顶会的大量智能体研究,提炼出了16种经典智能体设计,并将其归纳为一个模块化智能体设计空间。
在这个设计框架中,LLM智能体被简化为四个核心模块有机协作:任务规划(Planning)、常识推理(Reasoning)、工具使用(Tool Use)和记忆学习(Memory)。
研究团队还对不同代码框架进行了标准化整合,抽象出了标准化的模块接口,让每个模块可以像拧魔方一样轻松替换。这样,AgentSquare既能支持现有经典设计的组合创新,也能加速新智能体模块的高效探索。
图2 模块化设计空间(左)与标准IO接口(右)
这四个核心模块各有分工:
- 任务规划(Planning):将任务指令拆解为一系列子任务,提供清晰的行动指南
- 常识推理(Reasoning):引导智能体进行有条理的结构化推理,如「思维链」,提高推理准确度
- 工具使用(Tool Use):当内部知识不够时,选择合适的外部工具辅助任务完成
- 记忆学习(Memory):记录和管理智能体的经验,支持后续决策更高效
基于这四大模块,研究团队设计了一个智能体工作流程模板(Agentic Workflow)。
如图2所示,智能体会先用任务规划模块将复杂任务指令分解成小步骤,逐步由常识推理模块执行子任务。
当遇到知识盲区时,智能体就会借助工具使用模块调用外部工具,同时记忆学习模块保存相关经验,为后续任务提供支持。
最终,子任务推理结果会转化为实际行动,并在环境反馈的帮助下不断优化计划,直到任务完成或达到尝试上限为止。
模块化设计空间中的智能体搜索问题
基于模块化设计空间,AgentSquare带来了一个新的研究课题——模块化智能体搜索(MoLAS)。
MoLAS的主要技术问题在于(1)如何快速找到适应任务的最优模块组合(2)如何发现新颖的、更优的模块设计。解决这一问题面临着组合搜索空间庞大、新模块设计缺乏指引以及智能体评测成本高昂的三大挑战。
图3 模块化智能体搜索问题(MoLAS)
AgentSquare演化搜索——智能体「变形金刚」时代已来
图4 智能体设计的「变形金刚」时代
为了应对MoLAS的挑战,研究团队推出了AgentSquare演化搜索算法,包含三大核心功能:模块重组、模块进化和代理评测模型。
图5 AgentSquare框架——通过模块进化和重组实现AI智能体高效自适应演化
模块重组(Module Recombination):组合经典设计,优化顶层架构
考虑到智能体广阔的设计空间,仅靠提示词(或代码)改写的简单策略只能在原有设计之上做微小调整,难以实现高效搜索。
为此,AgentSquare引入了LLM作为「重组提议者」 (Recombination proposer LLM),基于对性能评测经验的深入分析,提出重组高性能模块的智能体设计方案,模拟生命体重组优秀基因的过程。
模块重组功能通过对智能体顶层架构的大幅优化探索,实现远超底层「提示词改写」的优化演进速度。
模块进化(Module Evolution):积累底层变异,探索新颖设计
仅通过重组现有模块并不足够,AgentSquare还引入了模块进化功能,以便在代码层级探索全新模块的可能。
该功能引入一个作为代码编程者的LLM(Module-programming LLM)结合设计的模块进化元提示(Evolutionary meta-prompt)来探索新的模块设计,指导智能体生成新模块的设计方案。
通过模块重组与进化,AgentSquare大幅拓展了设计空间的搜索范围,并为智能体引入了更多创新性设计。
代理评测模型(Surrogate Model):节省评测成本,加快优化搜索
在自动化智能体搜索过程中,一个重要挑战是高昂的评测成本。
例如,在ALFWorld评测数据集上,评测一个GPT-4驱动的「思维链」智能体需耗费近60美元。为了解决这一问题,AgentSquare引入了一个代理评测模型(Surrogate Model)来预测智能体性能。
这个模型通过召回并对比相似智能体的历史评测数据,快速预测新智能体的表现,从而筛选出性能较差的提案。实验表明,代理模型的预测效果与实际评测接近,R-Square达到了0.95,且其token开销仅为真实评测的0.025%
图6 「代理评测模型」有效性验证
自适应演化搜索,涌现超人智能体设计
为验证AgentSquare的效果,研究团队在四类智能体任务——网页(Web)、具身(Embodied)、工具(Tool)和游戏(Game)——的六个基准测试上进行了大规模评测。结果显示,AgentSquare发现的智能体在性能上全面超越了人类设计的最优方案,平均性能提升达17.2%
研究还表明,一些简单的模块搜索方法(如随机组合和贝叶斯优化)也能获得优异性能,这进一步证明了模块化设计在智能体开发中的重要性。
表1 与人工设计、模块搜索及提示搜索基线的性能对比
性能和成本的联合分析显示,AgentSquare不仅提高了智能体的表现,还有效控制了推理成本。通过设计reward函数(如将token开销纳入搜索目标),AgentSquare能够在性能和成本之间灵活权衡。
图7 Webshop任务中各智能体性能与API成本的关系
此外,研究团队对搜索过程进行了详细分析,发现其他方法很快遇到性能瓶颈,而AgentSquare表现出更高效的搜索路径和更低的评测成本。
图8 AgentSquare在Alfworld和Webshop任务中的搜索轨迹
目前,AgentSquare在各项任务中生成的新模块均已开源,方便后续研究者复用和优化。AgentSquare不仅能灵活识别最适合任务需求的模块组合,还能有效整合已有和创新模块。
如下图所示,在具身任务ALFWorld中,AgentSquare设计了带有时序依赖的planning模块来优化行动规划,同时为reasoning模块加入多链路推理和反思机制,大幅提升了智能体的决策准确性,有效捕捉到任务需求的关键点。
图9 AgentSquare搜索在各任务中发现的新模块及性能最好的模块组合
汇集社区智慧,共创AI智能体新时代!
AgentSquare通过标准化的模块化设计空间和搜索框架,为大模型智能体的研究带来了系统化和标准化的重要突破。
更为关键的是,AgentSquare作为一个开源项目,将为智能体研究提供一个汇集社区智慧的平台,研究者手工设计或搜索发现的新颖智能体设计可以作为新模块被维护在开源代码库中,大幅降低经典设计在广泛任务上的应用门槛,助力智能体技术在更多应用场景中的创新与发展