阿里巴巴与人民大学联合团队的成果,AgentScope提升多智能体模拟效率
多智能体系统(MAS)是一种通过多个智能体的协作来解决复杂问题的技术。这些智能体可以是软件代理、机器人或其他自主系统,能够在动态环境中进行交互和决策。MAS在许多领域有广泛的应用,包括交通管理、金融市场模拟、灾害应急响应、社会行为研究等。随着应用规模的扩大,现有的多智能体系统面临扩展性和效率问题、智能体多样性不足、管理过程复杂的问题。
近日由来自阿里巴巴集团和中国人民大学组成的联合研究团队推出AgentScope平台,对超大规模多智能体模拟中的最新改进取得非常的技术成果。AgentScope是一个用户友好的多智能体平台,旨在解决现有平台在扩展性、效率、智能体多样性和管理过程方面的挑战。通过引入基于actor模型的分布式机制、灵活的环境支持、易用的配置工具和自动背景生成管道,AgentScope显著提升了大规模多智能体模拟的便利性和灵活性。
同时,研究团队发表的论文《Very Large-Scale Multi-Agent Simulation in AgentScope》探讨了大规模多智能体模拟在不同领域的潜力,通过一系列综合模拟实验,展示AgentScope在支持大规模多智能体模拟方面的有效性,并提供详细的观察和讨论,强调多智能体系统在大规模模拟中的巨大潜力。
研究团队里阿里巴巴集团的人员有Xuchen Pan、Dawei Gao、Yuexiang Xie、Yaliang Li、Bolin Ding、Jingren Zhou,这些研究人员在阿里巴巴集团工作,专注于大规模多智能体系统和相关技术的研究与开发。中国人民大学的人员有Zhewei Wei、Ji-Rong Wen,这两位研究人员来自中国人民大学,致力于多智能体系统和人工智能领域的研究。
论文的源代码已在GitHub上发布(链接地址https://github.com/modelscope/agentscope),该项目在GitHub上有3.9k颗星和249个分支。这一开源项目为研究人员和开发者提供了一个强大的工具,支持他们在大规模多智能体模拟领域进行创新和探索。
多智能体系统的现状与挑战
多智能体系统(MAS)在许多领域中都有广泛的应用,如交通管理、金融市场模拟、灾害应急响应和社会行为研究等。然而,现有的多智能体模拟平台在扩展性、效率、智能体多样性和管理过程等方面仍存在诸多局限性。
随着智能体数量的增加,现有平台在组织智能体执行任务和通信方面的效率显著下降。在大规模模拟中,智能体需要按照一定的顺序执行任务,并进行频繁的通信和协作。然而,现有平台在处理大量智能体时,往往难以高效地组织这些任务,导致模拟时间过长,结果不准确。大规模模拟需要大量的计算资源,现有平台在资源分配和利用方面存在不足,无法充分利用多核处理器和分布式计算资源,导致计算效率低下。智能体之间的通信是多智能体系统的重要组成部分,但在大规模模拟中,通信开销往往成为瓶颈,限制了系统的扩展性和效率。
大规模模拟需要智能体表现出多样化的行为,以便更真实地再现复杂系统的行为。然而现有平台在智能体背景设置和行为多样性方面的支持有限,现有平台通常只提供简单的背景设置,难以生成具有丰富背景和多样化行为的智能体。这使得模拟结果缺乏现实性和代表性。由于背景设置的单一性,智能体的行为模式往往趋于同质化,难以模拟真实世界中的复杂场景和多样化行为。现有平台在智能体间的互动设计上存在不足,难以支持复杂的互动行为和动态变化,限制了模拟的深度和广度。
管理大量分布在多个设备上的智能体,包括初始化、执行和终止智能体,以及监控其状态和交互,过程繁琐且耗时。在大规模模拟中,初始化和配置大量智能体需要耗费大量时间和精力,现有平台缺乏高效的配置工具和自动化支持。在模拟执行过程中,监控智能体的状态和行为是一个复杂的任务,现有平台在监控工具和界面设计上存在不足,难以提供全面和实时的监控。在模拟结束后,终止和清理大量智能体同样是一个耗时的过程,现有平台缺乏高效的终止和清理机制。
为了提升多智能体模拟的现实性和可靠性,减少人力干预,论文提出了对AgentScope平台的多项改进,旨在解决上述挑战,支持超大规模多智能体模拟。
通过引入基于actor模型的分布式机制、灵活的环境支持、易用的配置工具和自动背景生成管道,AgentScope显著提升了大规模多智能体模拟的现实性和可靠性。基于actor模型的分布式架构支持自动并行执行和集中工作流编排,显著提升了模拟的扩展性和效率。多层环境结构和高频访问支持能够灵活模拟各种现实场景,增强了模拟的现实性。配置工具和自动背景生成管道简化了创建多样化智能体的过程,提升了智能体的多样性和行为的现实性。
通过提供易用的配置工具和自动化支持,AgentScope显著减少了大规模多智能体模拟中的人力干预。用户可以定义模拟的总人口,并从多个角度指定人口分布,提供常用的分布模板,支持扩展新的方面,简化了智能体的初始化和配置过程。根据配置工具提供的分布,自动生成详细且多样化的背景设置,引入更多多样性,减少了手动设置的工作量。基于Web的界面提供了全面和实时的监控,简化了智能体的执行和监控过程,提高了管理效率。
AgentScope平台的改进
AgentScope平台在大规模多智能体模拟中引入了多项关键改进,旨在解决现有平台在扩展性、效率、智能体多样性和管理过程方面的挑战。
分布式机制
AgentScope采用了基于actor模型的分布式架构,这种架构在并行计算和分布式系统中具有显著优势。actor模型是一种并发计算的数学模型,其中每个actor作为基本计算单元,独立接收消息并进行计算。通过这种方式,AgentScope能够实现高效的任务分配和执行。
图1:自动并行执行的一个示例,其中圆圈表示代理,有向边表示消息传递流。
在AgentScope中,每个智能体被视为一个独立的actor,能够并行执行任务并与其他智能体进行通信。这种设计不仅提高了系统的扩展性,还减少了任务执行的时间。具体来说,AgentScope通过通信图动态识别可执行的智能体,这些智能体可以自动并行执行,利用最大可用资源。
为了进一步提升效率,AgentScope引入了自动并行执行和集中工作流编排机制。自动并行执行通过格式化智能体间的交互为通信图,实现了智能体的并行执行。每个智能体在接收到所需的消息后才会触发内部计算,这样可以确保智能体仅依赖于必要的消息,从而实现高效的并行执行。
图2:占位符如何在模拟中发挥作用,以使用户能够集中协调工作流程。
集中工作流编排则通过代理机制在中心进程中管理分布式智能体的通信。代理机制隐藏了远程计算的复杂性,使用户能够在中心进程中指定分布式智能体之间的通信。为了确保工作流执行不被分布式智能体的计算阻塞,AgentScope引入了占位符概念。当代理接收到消息时,会立即返回占位符,并将消息转发给对应的分布式智能体。智能体在接收到所有实际值后才会执行内部计算,从而实现了独立分布式智能体的并行运行。
这种设计不仅提高了智能体间通信的效率,还简化了用户的操作,使得大规模多智能体模拟变得更加便捷和高效。
灵活的环境支持
AgentScope提供了多层环境结构,支持组内信息同步和组间信息差异化,增强了模拟的灵活性。在多智能体模拟中,环境是智能体交互的重要组成部分。AgentScope通过抽象环境操作为注册、查询、更新、删除和监控等基本操作,支持高频访问和数据同步。
图3:基于代理的模拟的多层环境结构。
多层环境结构允许为不同的智能体组建立独立的环境,以提供交互项和共享信息。在这些环境之上,还可以设置一个全局环境进行全局同步。这种设计特别适用于需要组内协作和组间信息差异化的模拟场景,例如社会行为模拟和团队合作模拟。
为了满足大规模模拟中高频访问的需求,AgentScope实现了分布式节点的环境模块,通过远程过程调用(RPC)与智能体进行通信。环境模块在接收到智能体的请求后,会根据访问的数据将请求分类到不同的队列中,并同时处理这些队列中的请求,以解决数据冲突问题。
用户可以根据可用的硬件资源设置最大并发数,从而优化环境模块的性能。此外,AgentScope还提供了时间线和位置两个维度的交互,支持智能体根据全局时间调整行为,并在地图上与附近的智能体或物品进行交互。这种设计提供了灵活的环境支持,能够模拟各种现实场景,增强了模拟的现实性和多样性。
易用的配置工具与自动背景生成
AgentScope集成了易用的配置工具,用户可以定义模拟的总人口,并从多个角度指定人口分布。配置工具提供了一些常用的分布模板,例如年龄、性别、职业、国籍和教育水平等,用户也可以根据需要扩展新的方面。
通过配置工具,用户只需简单地指定人口分布,即可生成大量具有详细且多样化特征的智能体。这些智能体可以通过AgentScope-Manager模块方便地管理和监控,该模块简化了大规模智能体模拟的组织和观察过程。
在配置工具提供的分布基础上,AgentScope还提供了自动背景生成管道,用于生成详细且多样化的背景设置。当用户启动模拟时,系统会根据配置工具提供的分布,从中抽取具体值,并将其转换为JSON格式,填充到元提示中,生成完整的背景设置指令。
图4:基于网页的可视化界面,适用于大规模代理商管理。
这些指令由大语言模型(LLMs)使用,以生成异构的背景设置。为了引入更多的多样性,生成过程会调整随机种子和温度。通过这种方式,AgentScope能够自动生成具有丰富背景和多样化行为的智能体,减少了手动设置的工作量,提高了模拟的现实性和代表性。
AgentScope通过引入基于actor模型的分布式机制、灵活的环境支持、易用的配置工具和自动背景生成管道,显著提升了大规模多智能体模拟的扩展性、效率和多样性。这些改进不仅解决了现有平台的局限性,还为研究人员和开发者提供了一个强大的工具,支持他们在大规模多智能体模拟领域进行创新和探索。
实验与结果分析
研究团队通过一系列实验验证了AgentScope在大规模多智能体模拟中的性能和效果。以下是实验设置、扩展性与效率分析以及模拟结果与分析的详细解读。
实验设置
实验在一个包含多个设备的集群上进行,每个设备配备8个A100-80G GPU、64核CPU和1TB内存。为了处理高并发的服务请求,研究团队采用了vLLM作为LLM推理引擎。实验中使用了六种不同大小的开源LLM,包括Llama3-8B、Llama3-70B、Qwen2-7B、Qwen2-72B、MistralAI-8×7B和MistralAI-8×22B。
在实验中,除非特别说明,每个设备上部署八个Qwen2-7B或Llama3-8B模型,两个Qwen2-72B、Llama3-70B或MistralAI-8×7B模型,或一个MistralAI-8×22B模型。所有LLM的生成温度设置为1.0,以促进响应的多样性。此外,为了防止响应格式错误,每个智能体在每轮游戏中执行两次LLM服务器调用。第一次调用用于生成响应,包括其思维过程和报告的数字,第二次调用用于正确提取报告的数字。
图5:基于代理的模拟,具有不同规模的代理(a、b)和不同数量的设备(c、d)。
为了指导智能体在游戏中的行为,研究团队为智能体提供了系统提示。这些提示包括游戏规则、响应格式以及行为指导。例如,为了鼓励智能体逐步思考,系统提示中加入了“链式思维”研究的启发,要求智能体在报告数字前逐步思考。
在进一步的实验中,研究团队还在系统提示中加入了更详细的行为指导,提醒智能体所有竞争对手都是理性的,并会通过分析他人的策略来调整报告的数字。这些详细指令旨在使智能体在报告数字前进行更深入的思考和多样化的考虑,从而使模拟更加实际、有意义和有趣。
扩展性与效率
为了展示AgentScope在大规模智能体模拟中的扩展性和效率,研究团队进行了多项实验,记录了不同规模智能体模拟的运行时间。实验结果显示,AgentScope能够支持包含100万个智能体的模拟,使用4台设备可在12分钟内完成。
具体来说,当使用Llama3-8B和基本系统提示(Prompt 1)时,模拟包含100万个智能体的运行时间为12分钟;而使用“链式思维”提示(Prompt 2)时,由于响应的平均令牌数增加了150倍以上,运行时间增加到85分钟。对于最重的推理工作负载,即使用Llama3-70B和Prompt 2时,模拟运行时间约为10.6小时。
为了更好地展示基于actor模型的分布式机制带来的效率提升,研究团队采用了虚拟模型请求(即智能体休眠1秒并生成随机数而不是发送请求)进行模拟,以消除LLM推理速度的影响。实验结果显示,使用基于actor模型的分布式机制,完成包含100万个智能体的模拟仅需40秒,而使用串行执行或Python中的异步模式(现有工作采用的模式)则分别需要约12天和8.6小时。
图6:具有不同 LLM 和系统提示的代理报告的数字分布。
此外,增加设备数量可以成比例地减少模拟运行时间。例如,当智能体数量固定为10,000时,增加设备数量从1台到4台,模拟运行时间从22分钟减少到5.6分钟。这表明,通过增加设备数量,AgentScope能够显著提升模拟的扩展性和效率。
模拟结果与分析
实验结果显示,不同系统提示对智能体的行为有显著影响。使用基本系统提示(Prompt 1)时,大多数智能体报告的数字约为50。然而使用“链式思维”提示(Prompt 2)时,智能体报告的数字显著减少,接近0。这表明详细指令比一般指导(如“逐步思考”)更有效,能够促使智能体进行更深入的思考和更理性的决策。
图7:多轮比赛中报告数字的平均值。
在进一步的实验中,研究团队在系统提示中加入了更详细的行为指导(Prompt 3和Prompt 4),提醒智能体所有竞争对手都是理性的,并会通过分析他人的策略来调整报告的数字。实验结果显示,使用详细指令的智能体报告的数字更接近0,表明详细指令比一般指导更有效。
在多轮游戏中,智能体逐渐调整策略,报告的数字逐渐收敛到0,显示出对游戏的良好理解和理性决策能力。例如,在多轮游戏中,智能体在每轮开始时会被告知上一轮的获胜数字,并根据这些信息调整策略。实验结果显示,随着游戏的进行,智能体报告的数字逐渐接近0,表明智能体能够有效地考虑其他智能体的行为,并做出合理的决策。
图8:不同的系统提示对不同的LLM的影响。
此外,使用“链式思维”提示的智能体比使用基本提示的智能体更快收敛到纳什均衡。例如,在第五轮游戏中,使用Qwen2-72B和Prompt 2的智能体报告的平均数字为2.02,而使用Prompt 1的智能体报告的平均数字为25.16。这表明,详细的行为指导能够加速智能体达到纳什均衡。
智能体多样性研究
在多智能体系统的研究中,智能体的多样性是一个关键因素。多样化的智能体能够更真实地模拟复杂系统中的各种行为和交互,从而提高模拟的现实性和代表性。研究团队通过对AgentScope平台的实验,深入探讨了智能体多样性的重要性及其实现方法。
异构配置
在AgentScope平台中,研究团队通过配置工具和自动背景生成管道,为智能体设置了多样化的背景,包括教育水平和职业背景。具体来说,智能体被分为多个组,每组包含200个智能体,每个组的智能体具有不同的教育水平或职业背景。
图9:具有不同教育水平的代理人报告的数字分布。
在教育水平方面,智能体被分为五个不同的教育水平:小学、高中、学士、硕士和博士。实验结果显示,教育水平越高的智能体在游戏中的表现越理性。例如,使用Qwen2-72B的智能体中,博士教育水平的智能体报告的平均数字显著低于小学教育水平的智能体。这表明,教育水平较高的智能体在游戏中表现出更强的推理能力和决策能力。
在职业背景方面,智能体被分为六个不同的职业:游戏理论教授、经济学家、心理学家、运动员、艺术家和作家。实验结果显示,不同职业背景的智能体在游戏中的表现也存在显著差异。例如,游戏理论教授和经济学家报告的数字较小,表现出更理性的行为;而艺术家和作家则可能采用更直接的策略。这些结果表明,智能体的职业背景对其行为有重要影响。
图10:不同职业的代理人报告的数字分布。
图11:涉及具有多种 LLM 的代理的个体级别模拟。
通过对不同背景设置的智能体行为进行分析,研究团队发现,智能体的行为与其背景设置一致。例如,具有博士教育水平的智能体在游戏中表现出更强的推理能力和决策能力,而小学教育水平的智能体则可能表现出较为简单的行为模式。同样,游戏理论教授和经济学家在游戏中表现出更理性的行为,而艺术家和作家则可能采用更直接的策略。
这些结果表明,通过提供不同的背景描述,可以显著增强智能体的多样性,从而提高模拟的现实性和代表性。AgentScope平台的配置工具和自动背景生成管道为实现这一目标提供了有力支持。
混合LLM的模拟实验
为了进一步探讨智能体多样性,研究团队进行了混合LLM的模拟实验。具体来说,智能体被配置为使用不同的LLM,包括Llama3-70B、MistralAI-8×22B和Qwen2-72B,每个LLM分配500个智能体。实验包括个体级别和组级别的模拟。
在个体级别模拟中,每个智能体独立参与游戏。实验结果显示,不同LLM的智能体行为存在显著差异。例如,Llama3-70B的智能体报告的数字较为一致,倾向于报告约33的数字;MistralAI-8×22B的智能体则一致报告0;Qwen2-72B的智能体表现出更大的行为多样性,报告的数字范围较广,主要集中在0到50之间。
在组级别模拟中,智能体被分为三组,每组使用相同的LLM。每个智能体报告一个数字,组内智能体的平均数字作为该组的报告数字。实验结果显示,同组智能体的行为在第二轮后趋于一致。例如,Qwen2-72B和Llama3-70B的智能体表现较为一致,而MistralAI-8×22B的智能体有时会报告较大的数字。
实验结果表明,不同LLM的智能体在行为上存在显著差异。例如,Llama3-70B的智能体报告的数字较为一致,而MistralAI-8×22B的智能体则一致报告0,Qwen2-72B的智能体表现出更大的行为多样性。这些差异可能与LLM的架构、训练语料等因素有关。
图12:涉及具有混合 LLM 的代理的群体级别模拟。
此外实验还显示,智能体在多轮游戏中的策略调整也存在差异。例如,在多轮游戏中,智能体在每轮开始时会被告知上一轮的获胜数字,并根据这些信息调整策略。实验结果显示,随着游戏的进行,智能体报告的数字逐渐接近0,表明智能体能够有效地考虑其他智能体的行为,并做出合理的决策。
进一步讨论
在论文的最后部分,我们将进一步探讨AgentScope在大规模多智能体模拟中的一些关键问题和实验结果。这些讨论将涵盖温度对生成多样性的影响、智能体扮演极端角色的表现、先验知识对智能体行为的影响以及非零纳什均衡的模拟实验。
温度对生成多样性的影响
温度是控制大语言模型(LLM)生成多样性的一个重要超参数。在AgentScope的实验中,研究团队设置了1000个使用Qwen2-72B和Prompt 2的智能体,并将温度范围设置为{0.05, 0.25, 0.50, 1.00}。实验结果显示,随着温度的增加,报告数字的标准差从6.50上升到8.20,而平均值变化不大。
这些结果表明,温度对生成多样性的影响主要体现在报告数字的分布上,而对总体平均值的影响较小。当温度较低时,智能体的行为较为一致,报告的数字集中在一个较小的范围内;而当温度较高时,智能体的行为变得更加多样化,报告的数字分布范围更广。这一发现对于在大规模模拟中控制智能体行为的多样性具有重要意义。
图13:游戏中设定不同比例时报出的数字分布情况。
扮演极端角色的智能体表现
在多样化背景设置的模拟中,研究团队尝试让智能体扮演极端角色,例如七岁儿童。实验结果显示,尽管智能体被设定为七岁儿童,但其行为并不符合预期,表现出计算和多步骤推理能力。这表明,尽管可以为智能体设置各种背景,但在某些极端情况下,智能体的行为可能与预期不符。
这一发现强调了在模拟前评估模型能力和设计背景设置的重要性。用户需要仔细设计背景设置,并评估模型在特定角色下的表现,以确保模拟结果的现实性和代表性。
先验知识对智能体行为的影响
“猜平均数”的游戏是一个经典的博弈论问题,LLM可能在其训练语料中已经获得了相关的先验知识。为了测量这种先验知识的影响,研究团队改变了游戏的比例,从2/3改为1/2和51/100,并分别进行了模拟实验。
实验结果显示,当比例设置为1/2和51/100时,智能体的表现存在显著差异。更多的智能体在比例为1/2时倾向于报告较大的数字,而在比例为51/100时,智能体的表现则更加多样化。这表明,LLM的先验知识对智能体行为有显著影响。
为了减少这种影响,研究团队在系统提示中加入了一条注释,指出这是“猜平均数”游戏的变体。实验结果显示,加入注释后,智能体的表现更加接近比例为1/2的情况。这一发现表明,通过在系统提示中明确说明游戏设置,可以有效减少先验知识对智能体行为的影响。
非零纳什均衡的模拟实验
为了验证智能体在理解和推理方面的能力,研究团队设置了一个变体游戏,使纳什均衡变为10,而不是经典游戏中的0。实验结果显示,部分使用Qwen2-72B和MistralAI-8×22B的智能体能够在第一轮中推理出新的纳什均衡点,并在随后的游戏中逐渐接近10。
图14:当我们在模拟中将纳什均衡改为 10 时报告的数字分布。
图15:在 LLM 中使用不同温度时报告的数字的分布。
这一发现表明,智能体在理解和推理方面表现出强大的能力,能够根据新的游戏规则做出合理的决策。此外,实验还发现,尽管智能体在推理过程中可能会犯一些简单的计算错误,但这些错误并不影响整体结论。
通过这些实验,研究团队展示了AgentScope在大规模多智能体模拟中的强大能力和潜力。温度对生成多样性的影响、智能体扮演极端角色的表现、先验知识对智能体行为的影响以及非零纳什均衡的模拟实验,进一步验证了AgentScope在支持复杂模拟和多样化智能体行为方面的有效性。
结论
论文通过对AgentScope平台的详细解读,展示了其在超大规模多智能体模拟中的最新改进和实验结果。AgentScope通过引入基于actor模型的分布式机制、灵活的环境支持、易用的配置工具和自动背景生成管道,显著提升了大规模多智能体模拟的扩展性、效率和多样性。
实验结果表明,AgentScope不仅能够支持大规模智能体模拟,还能够通过详细的行为指导和多轮游戏中的策略调整,促使智能体进行更深入的思考和更理性的决策。此外,温度对生成多样性的影响、智能体扮演极端角色的表现、先验知识对智能体行为的影响以及非零纳什均衡的模拟实验,进一步验证了AgentScope在支持复杂模拟和多样化智能体行为方面的有效性。
未来,AgentScope有望在更多领域中得到应用,如交通管理、金融市场模拟、灾害应急响应和社会行为研究等。通过不断优化平台性能和扩展应用场景,AgentScope将为研究人员和开发者提供更强大的工具,支持他们在大规模多智能体模拟领域进行创新和探索。(END)
参考资料:https://arxiv.org/pdf/2407.17789
本文转载自 大噬元兽,作者: FlerkenS