清华智能体宇宙火了，AI模拟“囚徒困境”等实验只需几行简单配置-51CTO.COM

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

可以轻松模拟社会实验的多智能体宇宙来了——

它由清华大学联合北邮、微信团队推出，目前已在GitHub揽获1.1k标星。

名字简单粗暴，就叫“AgentVerse”。

划重点：这个环境专门针对大语言模型开发，也就是智能体们可以运用LLM的能力完成任务。

而只需几行简单配置，你想让智能体们在什么环境出生，就能在什么环境成长。

比如“囚徒困境”：

狱警向两个嫌疑人agent提出一个两难挑战，让他们自己决定是合作互惠还是背叛。

比如“NLP课堂”：

教授通过文字形式授课，学生agent通过有问题时举手、被点名之后方可发言提问的方式，一步步学会知识。

甚至，还能模拟简单的宝可梦游戏…而且还是用户可以直接参与进去的那种：

（通过输入文本进行对话）

要啥有啥，全凭你自己发挥。

作者也表示，这个项目的初衷就是简化大伙儿用LLM构建自定义多智能体环境的过程，让大家能够专注于研究本身。

目前，AgentVerse的论文已经发布，源码也在路上了。

赶紧来瞧瞧。

正如AgentVerse专为大模型开发，如今人类训练智能体的效果正是在各种LLM的加持下，跟着进步了很多，比如更强的泛化能力。

不过，就和现实世界一样，即使有LLM助力，学会合作也是这些智能体们必须要经历的一件事。

在此，作者提出了多智能体环境构建框架AgentVerse。

它的工作流程模拟了人类合作解决问题的过程，一共分为4个阶段：

1、专家招募（Expert Recruitment）。

根据当前问题解决进度调整由那些agent来处理任务。

2、讨论合作策略（Collaborative Decision）。

由上一阶段招募的agent讨论解决问题所需的分工，需要达成共识。

3、执行（Action Execution）

agent们与环境进行交互，完成任务。

4、评估（Evaluation）

任务完成后，此模块将当前状态与期望目标进行比对，如果没有达到预期就发送反馈奖励重新回到第一步骤。

如开头提到，AgentVerse框架的亮点之一就是可以实现自定义环境配置。

那么如何自定义？

方法是通过5个基础组件。

每一个组件代表的其实是一个规则，组合不同的规则就可以搭建出不同的环境，从而方便研究人员研究不同条件下智能体的行为。

具体来看，这5个组件分别是：

描述器（Describer），它为每个agent提供每次环境的描述。通过自定义该组件，你就能根据你自己的特定要求来构建环境。
顺序（Order），它定义agent在环境中采取操作的顺序，可以采用几个默认选项，比如random（随机）、sequential（按顺序）和concurrent（所有agent在每个回合中都采取行动），也可以自定义。
选择器（Selector），有时agent会生成一些无效信息，它就用于过滤这些信息，选择有效内容。
更新器（Updater），用于更新每个agent的内存。这是因为有时某个agent的响应不应被所有agent看到（比如不在一个房间），它的作用就是在每个响应发生后，仅更新每个agent应看到内容。
Visibility（可见性），用于维护agent列表，每当有agent移动到另一个房间或者产生其他变化时，它会向所有agent更新列表。