Agent Q：具备自我学习、评估的智能体

Aceryt

发布于 2024-8-30 10:25

2411浏览

0收藏

GPT-4、Gemini等大模型在自然语言处理任务中取得了进步，但在交互式、多步骤环境中的泛化能力仍有欠缺。例如，当我们在网上购买一件特定的商品时，需要在众多网页中进行搜索、比较和选择。

AGI平台MultiOn和斯坦福的研究人员联合开发了一种智能体Agent Q，能自主规划、推理一些任务。Agent Q与其他智能体最大差别的是，它能从失败和成功的任务中自动学习、评估，从而提高在复杂多步骤推理任务中的泛化能力。

论文地址：https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

Agent Q：具备自我学习、评估的智能体-AI.x社区

Agent Q框架采用了蒙特卡洛树搜索（MCTS）算法来指导智能体的探索和决策过程。

MCTS是一种启发式搜索算法，广泛应用于游戏和决策领域，通过模拟可能的未来路径来评估和选择最优的行动策略。

Agent Q：具备自我学习、评估的智能体-AI.x社区

在Agent Q中，MCTS用于在网页环境中导航，帮助智能体在每一步选择最有希望的动作。这一过程涉及选择、扩展、模拟和反向传播四个阶段，通过迭代地优化搜索树来提高策略的性能。

MCTS算法在复杂环境中面临的一大挑战是环境奖励的稀疏性，可能会导致智能体在长期任务中遇到困难。

为了解决这个难题，Agent Q引入了自我批评机制，这是一种自我评估过程，智能体在每个决策节点上使用自身的评估来提供中间奖励。这不仅帮助智能体在搜索过程中进行自我监督，而且通过提供即时反馈能指导智能体学习正确的规划路径。

Agent Q：具备自我学习、评估的智能体-AI.x社区

Agent Q的自我批评机制依赖于一个反馈语言模型，该模型对智能体在每个节点上可能采取的动作进行评分，从而形成一个加权分数。

这个分数结合了MCTS的平均Q值和反馈语言模型生成的分数，用于构建直接偏好优化（DPO）算法中的对比对。DPO算法是一种离线强化学习算法，通过比较不同动作的偏好来优化策略，使得智能体能够从成功的和不成功的轨迹中学习。

Agent Q：具备自我学习、评估的智能体-AI.x社区

Agent Q框架的另一个特色模块是“迭代式微调”，也是实现自我学习的关键所在。在迭代中，智能体通过与环境的交互不断学习和改进。与传统的监督学习不同，迭代式微调允许智能体在没有明确标签的环境下进行学习，通过自我生成的数据和偏好对来指导优化过程。

此外，Agent Q框架还考虑了智能体的状态表示问题。在网络交互中，智能体的状态可能部分不可观察，因此构建一个有效的状态表示对于智能体的性能至关重要。Agent Q采用了一种紧凑的历史表示方法，将智能体迄今为止生成的动作和当前浏览器状态结合起来，形成了一个高效的内存组件。

为了测试Agent Q的性能，研究人员在一种模拟电子商务平台WebShop进行了综合测试。实验结果显示，Agent Q的表现显著优于行为克隆和强化学习微调的基线模型，在某些任务中甚至超过了平均人类表现。

Agent Q：具备自我学习、评估的智能体-AI.x社区

尤其是在真实世界的预订场景中，Agent Q将Llama-3 70B模型的零样本成功率从18.6%提升至81.7%，相对提升了340%，并在配备在线搜索功能后，成功率进一步提高到了95.4%。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/Ku7OOWCzEXq8fA_y8M5KcQ

标签

模型

智能体

相关推荐

【春“码”盎然学习季】春日生发，宜学习，宜进阶，宜赢取春日好礼！

AI.x社区官方账号 • 52.2w浏览 • 52回复
智能体时代：Agent开发的三重境界

ermulong • 2898浏览 • 0回复
Agent智能体？我们要的到底是什么

ermulong • 2929浏览 • 0回复
Agent planning终篇：打造更聪明的智能体！

探索AGI • 2578浏览 • 0回复
学习大模型开发，需要具备人工智能或深度学习理论基础吗？

AI探索时代 • 1716浏览 • 0回复
图解LLM-Agent大模型智能体

ceesoft • 2295浏览 • 0回复
Agent 智能体开发框架选型指南

Baihai_IDP • 3755浏览 • 0回复
Agent 智能体开发框架如何优雅选型？

玄姐聊AGI • 2043浏览 • 0回复
RPA和Agent智能体区别应用场景

数字化助推器 • 2127浏览 • 0回复
AI Agent智能体产品的五个级别

数字化助推器 • 5556浏览 • 0回复
人工智能智能体(AI Agent)发展趋势2024年总结与2025年展望

十一月雨_55 • 7875浏览 • 0回复
谷歌刚刚发布AI Agent智能体白皮书，2025年AI Agent时代已到来！

玄姐聊AGI • 3983浏览 • 0回复
OpenAI重磅：AI Agent智能体Function Calling 2.0！

玄姐聊AGI • 2416浏览 • 0回复
多智能体微调：用多样化推理链实现语言模型的自我提升

sbf_2000 • 1951浏览 • 0回复
OpenAI全新智能体评估报告：Operator在软件测试中表现如何？

51CTO内容精选 • 2044浏览 • 0回复
【人人都会做智能体】Agent是什么,简单中等复杂商用的智能体又是什么?

九歌AI大模型 • 1036浏览 • 0回复
MCP协议——大模型构建Agent智能体的桥梁

AI探索时代 • 911浏览 • 0回复
MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发

玄姐聊AGI • 4518浏览 • 0回复
多智能体（Multi Agent）AI系统：企业智能化转型的未来

Halo咯咯 • 823浏览 • 0回复

Aceryt

LV.7

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

193

帖子

1691

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

Agent Q：具备自我学习、评估的智能体