智能体互联网（Agentic Web）

zhcs333

发布于 2025-2-5 14:22

浏览

0收藏

1.引言

随着大模型在多模态理解、逻辑推理等方面的进一步发展，Agent 或将在 2025 年迎来大规模落地应用，替代人类自主解决越来越多的日常工作。人工智能（AI）专家普遍认为，2025 年将是智能体（agent）爆发之年。

2024年底，Gartner 也将 agentic AI 列入了 2025 年十大技术趋势之一，并预测 2028 年将至少有 15% 的日常工作决策由 agentic AI 自主完成，而这一数字在 2024 年为 0。

在CES 2025，黄仁勋也强调2025年Agent将会有许多商业化应用。

智能体互联网（Agentic Web）-AI.x社区

本文从Agent展开，重点介绍Agent组网（Agentic Web）的相关发展。

2.什么是 AI Agent

根据OpenAI前安全研究副总裁Lilian Weng的博文，Agent =大语言模型（LLM）+规划（planning）+记忆（memory）+工具（tools）+行动（Action），在大语言模型（LLM）驱动的Agent系统中，LLM充当Agent的大脑，并由Planning（规划）、Memory（记忆）、Tools（工具）、Action（动作）等几个关键组件组成。

智能体互联网（Agentic Web）-AI.x社区

3.多 AI Agent 协作

随着单个Agent具有很大的自主性，研究人员逐步发现可以通过多个Agent之间协助完成并解决一些问题。

2023年斯坦福大学的人机交互研究小组创造了一个包含25个Agent的AI小镇，用以模拟社会互动。这个AI小镇设有大学、公寓、咖啡馆和书店等基础设施，Agent在其中居住并进行日常活动，尽管他们没有意识到自己生活在模拟环境中。这些Agent不仅能去工作、闲聊、组织社交活动、结交新朋友，甚至能坠入爱河，每个Agent都有独特的个性和背景故事。通过这种社会化模拟，展示了Agent在复杂的人类社交环境中的适应能力和行为多样性。

清华大学的研究团队尝试了AI员工的一些早期探索，他们打造了一个名为ChatDev的虚拟软件公司，由各种具有不同角色的Agent运作,包括CEO(首席执行官)、CPO(首席产品官)、CTO(首席技术官)、程序员、代码审查员、测试员和艺术设计师等。这些Agent组成了一个多代理组织结构,被设定了一个使命是“通过编程革新数字世界”。

复旦大学的技术团队开发了一个名为AI2Apps的一站式AI员工开发与端侧服务平台，将Devin的开发模式复刻到了任何岗位的AI员工上。团队自研了一套基于浏览器的Agent操作系统，提供全套的开发人员工具，包括终端、文件管理、Agent调试、代码编辑器和浏览器沙盒环境等，让开发者能在“建筑师Agent”的主导下完成任何岗位AI员工团队的构建与组合。经过AI2Apps的端侧部署后，AI员工可以通过浏览器在各种用户设备中既“无所不能”又“有所不为”，模拟人类员工办公的同时又避免了直接操控用户设备。

上面的多 agent 系统，都是在自己的“局域网”组成的系统，而如果所有的Agent都在目前的互联网上，我们还需要全球公认和采用的协议，这些协议应该得到普遍认可和实施，以便协调 agent 能够安全、合乎道德地与其他企业 agent 进行沟通、协商和合作，并使双方互惠互利。这种“合奏”级别的参与必须快速、高效和公平。如果没有这样的协议，往好了说，我们会面临 agent 与 agent 之间的“垃圾邮件”风险，往坏了说，我们会面临欺诈和其他危险。

4.AI Agent 互联网

正如互联网把全世界所有信息和人连接在一起，物联网把所有设备连接在一起，一个统一的智能体平台可以把散落在世界各地的Agent连接起来。

但是“互联网Agent”可能有不同的架构、运行于不同的设备、有不同的能力，同时在数量和功能上飞速演进，但目前单个智能体更多处于“孤岛”的相对隔离状态，智能体之间的互相发现、大规模自由协作，还没有先例。多智能体局域网协作，尽管已经显示了巨大的应用潜力，却依然存在着三重限制：

只允许接入内部定义的智能体。
大多数多智能体系统在一个设备上模拟多个智能体。现实场景更迫切的需求，是分布在多个设备和位置的智能体通过“网络”进行协作。
大多数多智能体系统的沟通机制单一，或者需要用户进行指定。沟通和多轮的信息交换，非常的不灵活。

为了跨过这些障碍，许多研究机构都希望提出类似Http的协议，统一将世界各地的Agent 通过协议连接起来。

IoA（Internet of Agents）

清华大学某AI团队推出了LLM驱动的智能体互联网（Internet of Agents, IoA），这是一个受互联网启发的智能体通信和协作通用框架。简单来说，IoA 创建了一个可以自由注册、互相发现的Agent协作平台，并且让智能体之间协作再向上构建，对原来Agent协作工作流（Work Flow）进行三个方向扩容，跨设备、更多异质Agent开放互联、协作组织方式高度灵活，从而在更高维度上形成智能体互联网 Internet of Agents（IoA）。

智能体互联网（Agentic Web）-AI.x社区

IoA 的核心由两个主要组件组成：服务器和客户端。服务器作为中心枢纽，管理智能体注册、发现和消息路由，确保具备不同能力的智能体能够互相发现并发起通信。客户端则作为单个智能体的包装，提供必要的通信功能，并适应指定的沟通协议。IoA能够实现智能体注册与发现、自主嵌套团队组建、自主会话流程控制、任务分配与执行等功能。

MCP（Model Context Protocol）

Anthropic 提出了一种MCP协议，以模型为核心，整个互联网都是他的上下文与工具（如下图所示）。MCP允许任何一台Server通过Web Apis访问互联网提供上下文信息。

智能体互联网（Agentic Web）-AI.x社区

Agora Protocol

异构的LLM 之间的通信效率低下，严重制约了 AI Agent网络的规模化应用，来自牛津大学的研究团队提出的 Agora 协议，为解决这一难题提供了创新方案。

智能体互联网（Agentic Web）-AI.x社区

具体步骤为：

定义协议文档（PD）：创建 PD 来描述通信协议，使 LLM 能够理解和遵循协议。
实现多层次通信策略：根据通信频率和任务复杂度，选择自然语言、LLM 编写的例程或人工编写的例程进行通信。
自动协商与实现协议：代理之间通过自然语言或 PD 中定义的例程自动协商和实现通信协议。
协议的涌现与共享：鼓励代理生成和共享 PD，以促进自组织协议的涌现和网络的自我优化。
成本效益分析：评估 Agora 协议相对于纯自然语言通信的成本效益。

ANP（Agent Network Protocol）

国内方面，提出了一种ANP，愿景是定义智能体之间的连接方式，为数十亿智能体构建一个开放、安全、高效的协作网络，成为智能体互联网时代的HTTP。

智能体互联网（Agentic Web）-AI.x社区

身份与加密通信层：基于W3C DID（Decentralized Identifiers，去中心化标识符）规范，在现有成熟的Web基础设施上，构建一个去中心化的身份认证方案和端到端加密通信方案。它可以让任意平台之间的智能体进行身份认证，而不依赖于任何中心化系统。
元协议层：元协议即协商智能体之间通信协议的协议。是智能体网络演进为自组织、自协商的高效协作网络的关键。
应用协议层：基于语义网相关规范，让智能体能够描述其他能力与支持的应用协议，并且高效的管理这些协议。

此外，AutoGPT和W3C 也各自定义了Agent Protocol设计的目标，不过都在萌芽阶段。

5.总结

从上面的分析可以看出，目前基于Agent提出的互联网协议都在实验阶段，可能各家都基于自身的产品都提出了各自的想法。随着我们对大量Agent 协作的理解不断加深，我们发现未来不是人类与人工智能的对决，而是人类与人工智能的协同合作，发挥各自的独特优势。而建立多个Agent之间、Agent与人之间如何交互的协议也成为重中之重。

随着互联网的逐步发展，我们已经走过Web 1.0、2.0、3.0，前两代⽹络专注于信息传播，Web 3.0通过去中心化和区块链等技术，用户能够真正拥有自己的数据，可以自由决定数据的使用方式、分享对象等，同时也能更好地保护自己的隐私，⽽现在通过Agent组网则通过⼤型语⾔模型（LLM）赋予了智能，因此有专家提出我们正在进入“Web 4.0”时代。

本文转载自AI遇见云，作者：王亚平

标签

智能体

互联网

Agent

51CTO

51CTO博客

51CTO学堂

智能体互联网（Agentic Web）