
重磅!为了狙击Manus,OpenAI开源了首个Agent SDK 原创
在当今数字化飞速发展的时代,人工智能(AI)已经渗透到我们生活的方方面面。从简单的语音助手到复杂的自动化系统,AI的应用场景不断拓展。然而,对于开发者和企业来说,如何将AI技术转化为实际可用的智能代理(agents),一直是他们面临的挑战。今天,OpenAI正式发布了首批构建模块,旨在帮助开发者和企业打造实用且可靠的智能代理。这些代理能够独立完成用户委托的任务,极大地提升工作效率。
一、智能代理的崛起:从概念到现实
在过去的一年中,OpenAI不断引入新的模型能力,例如高级推理、多模态交互以及新的安全技术,这些都为构建复杂多步骤任务的智能代理奠定了基础。然而,许多客户反馈,将这些能力转化为生产就绪的智能代理并非易事,往往需要大量的提示迭代和自定义编排逻辑,且缺乏足够的可见性或内置支持。
为了解决这些挑战,OpenAI推出了一系列全新的API和工具,专门用于简化智能代理应用的开发。这些工具不仅优化了核心代理逻辑、编排和交互,还让开发者能够更加轻松地开始构建智能代理。在未来几周和几个月内,OpenAI还将继续发布更多工具和功能,进一步简化和加速在平台上构建智能代理应用的进程。
二、重磅推出:Responses API
Responses API是OpenAI为构建智能代理而推出的新API基础。它结合了Chat Completions API的简洁性与Assistants API的工具使用能力。随着模型能力的不断发展,Responses API将为开发者构建智能代理应用提供更灵活的基础。通过单一的Responses API调用,开发者可以利用多种工具和模型轮次解决日益复杂的任务。
(一)Responses API的亮点
Responses API支持新的内置工具,如网络搜索、文件搜索和计算机使用。这些工具旨在协同工作,将模型与现实世界连接起来,使其在完成任务时更具实用性。此外,它还带来了多项可用性改进,包括统一的基于项目的界面设计、更简单的多态性、直观的流式事件以及SDK辅助工具,例如response.output_text
,方便开发者轻松访问模型的文本输出。
Responses API专为希望轻松将OpenAI模型和内置工具集成到其应用中的开发者设计,无需复杂地整合多个API或外部供应商。该API还简化了在OpenAI上存储数据的过程,开发者可以利用追踪和评估等功能来评估代理性能。需要提醒的是,OpenAI默认不会使用商业数据训练模型,即使数据存储在OpenAI上。从今天起,该API对所有开发者开放,并且不单独收费——代币和工具的费用按照定价页面上规定的标准费率计费。开发者可以查看Responses API快速入门指南,了解更多详情。
(二)对现有API的影响
Chat Completions API
Chat Completions仍然是OpenAI最受欢迎的API,OpenAI将继续全力支持其新模型和功能。对于不需要内置工具的开发者,可以继续放心使用Chat Completions。不过,Responses API是Chat Completions的超集,具有相同的卓越性能,因此对于新的集成,OpenAI建议从Responses API开始。
Assistants API
根据开发者对Assistants API测试版的反馈,OpenAI将关键改进融入了Responses API,使其更加灵活、快速且易于使用。OpenAI正在努力实现Assistants和Responses API之间的完全功能对等,包括支持类似Assistant和Thread的对象以及代码解释器工具。一旦完成,OpenAI计划在2026年中期宣布正式弃用Assistants API,并提供一个明确的从Assistants API迁移到Responses API的指南,以便开发者保留所有数据并迁移其应用。在正式宣布弃用之前,OpenAI将继续向Assistants API提供新模型。Responses API代表了在OpenAI上构建智能代理的未来方向。
三、Responses API中的内置工具
(一)网络搜索
开发者现在可以利用网络搜索获取快速、最新且相关性强的答案,并附上清晰的引用来源。在Responses API中,当使用gpt-4o
和gpt-4o-mini
时,网络搜索可作为工具使用,并且可以与其他工具或函数调用结合。
在早期测试中,开发者将网络搜索应用于多种场景,包括购物助手、研究代理和旅行预订代理——任何需要及时从网络获取信息的应用场景。例如,Hebbia利用网络搜索工具,帮助资产管理公司、私募股权和信贷公司以及律师事务所从广泛的公共和私有数据集中快速提取可操作的见解。通过将实时搜索能力整合到他们的研究工作流程中,Hebbia提供了更丰富、更具针对性的市场情报,并持续提升其分析的精确性和相关性,超越当前的基准。
网络搜索在API中的表现与ChatGPT搜索所使用的模型相同。在SimpleQA基准测试中,该测试评估LLM在回答简短事实性问题时的准确性,GPT-4o
搜索预览和GPT-4o mini
搜索预览分别获得了90%和88%的准确率。
网络搜索生成的响应中包含指向来源的链接,例如新闻文章和博客帖子,为用户提供了进一步了解的途径。这些清晰的内联引用让用户以全新的方式与信息互动,同时内容所有者也获得了接触更广泛受众的新机会。
任何网站或出版商都可以选择在API的网络搜索中出现。网络搜索工具目前以预览形式向所有开发者开放。此外,OpenAI还在Chat Completions API中通过gpt-4o-search-preview
和gpt-4o-mini-search-preview
为开发者提供了直接访问其微调搜索模型的权限。GPT-4o
搜索和4o-mini
搜索的定价分别为每千次查询30美元和25美元。开发者可以在Playground中体验网络搜索,并在文档中了解更多详情。
(二)文件搜索
开发者现在可以使用改进后的文件搜索工具轻松从大量文档中检索相关信息。该工具支持多种文件类型、查询优化、元数据过滤和自定义重排,能够快速、准确地返回搜索结果。同样,通过Responses API,只需几行代码即可完成集成。
文件搜索工具可用于多种现实世界的应用场景,包括帮助客户支持代理轻松访问常见问题解答(FAQ)、协助法律助理快速参考过往案例以及帮助编码代理查询技术文档。例如,Navan在其AI驱动的旅行代理中使用文件搜索,能够快速从知识库文章(如公司的旅行政策)中为用户提供精确答案。凭借内置的查询优化和重排功能,Navan无需额外调整或配置即可建立强大的检索增强生成(RAG)管道。通过为每个用户群体设置专用的向量存储,Navan能够根据个人账户设置和用户角色定制答案,为客户及其员工节省时间,同时提供准确、个性化的支持。
该工具在Responses API中对所有开发者开放。使用费用为每千次查询2.50美元,文件存储费用为每GB每天0.10美元,首GB免费。该工具继续在Assistants API中提供。此外,OpenAI还在向量存储API对象中添加了一个新的搜索端点,以便直接查询数据以供其他应用和API使用。开发者可以在文档中了解更多详情,并在Playground中开始测试。
(三)计算机使用
为了构建能够在计算机上完成任务的代理,开发者现在可以使用Responses API中的计算机使用工具。该工具由与Operator相同的计算机使用代理(CUA)模型提供支持。这一研究预览模型在OSWorld(用于完整计算机使用任务)上取得了38.1%的成功率,在WebArena上取得了58.1%的成功率,在WebVoyager(用于基于网络的交互)上取得了87%的成功率,均创下了新的行业记录。
内置的计算机使用工具可以捕获模型生成的鼠标和键盘动作,使开发者能够通过将这些动作直接转换为其环境中的可执行命令来自动化计算机任务。
例如,开发者可以使用计算机使用工具自动化基于浏览器的工作流程,如对Web应用进行质量保证或在遗留系统中执行数据输入任务。例如,Unify是一个用于增加收入的行动系统,它使用代理来识别意图、研究账户并与买家互动。通过使用OpenAI的计算机使用工具,Unify的代理可以访问以前无法通过API获取的信息——例如,使物业管理公司能够通过在线地图验证企业是否扩大了其房地产足迹。这种研究作为自定义信号,触发个性化的推广活动——赋予上市团队以精准和规模化的形式与买家互动的能力。
另一个例子是Luminai,它将计算机使用工具整合到大型企业的复杂运营工作流中,这些企业通常缺乏API可用性和标准化数据。在与一家主要社区服务组织的最近试点中,Luminai仅用了几天时间就自动化了申请处理和用户注册流程——这是传统机器人流程自动化(RPA)在数月努力后仍难以实现的。
在去年推出Operator中的CUA之前,OpenAI进行了广泛的安全测试和红队测试,重点关注三个关键风险领域:滥用、模型错误和前沿风险。为了应对通过CUA在API中将Operator的能力扩展到本地操作系统所带来的风险,OpenAI进行了额外的安全评估和红队测试。OpenAI还为开发者增加了缓解措施,包括防止提示注入的安全检查、敏感任务的确认提示、帮助开发者隔离其环境的工具以及增强对潜在政策违规行为的检测。尽管这些缓解措施有助于降低风险,但该模型仍可能在非浏览器环境中出现意外错误。例如,CUA在OSWorld(一个衡量AI代理在现实世界任务中表现的基准测试)上的表现目前为38.1%,表明该模型尚未达到在操作系统上自动化任务的高度可靠性。在这种情况下,建议进行人工监督。有关OpenAI针对API特定安全工作的更多细节,可以在更新的系统卡片中找到。
从今天起,计算机使用工具作为研究预览在Responses API中向使用层级3-5的开发者开放。使用费用为每百万输入代币3美元,每百万输出代币12美元。开发者可以在文档中了解更多详情,并查看示例应用,了解如何使用该工具进行构建。
四、智能代理开发的利器:Agents SDK
除了构建智能代理的核心逻辑并为其提供工具以使其有用之外,开发者还需要编排智能代理的工作流。OpenAI新推出的开源Agents SDK简化了多智能代理工作流的编排,并在去年发布的Swarm实验性SDK的基础上进行了显著改进。Swarm被开发者社区广泛采用,并成功部署在多个客户项目中。
(一)Agents SDK的改进
- 智能代理:易于配置的LLM,带有清晰的指令和内置工具。
- 交接:智能地在代理之间转移控制权。
- 防护栏:可配置的安全检查,用于输入和输出验证。
- 追踪与可观测性:可视化代理执行轨迹,以便调试和优化性能。
(二)Agents SDK的应用场景
Agents SDK适用于多种现实世界的应用场景,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售前景分析。例如,Coinbase使用Agents SDK快速原型化并部署了AgentKit,这是一个工具包,使AI代理能够与加密钱包和各种链上活动无缝互动。在短短几个小时内,Coinbase将来自其开发者平台SDK的自定义动作整合到一个功能齐全的代理中。AgentKit的精简架构简化了添加新代理动作的过程,让开发者能够更多地专注于有意义的整合,而无需在复杂的代理设置中耗费过多精力。
在短短几天内,Box能够快速创建代理,利用网络搜索和Agents SDK,使企业能够搜索、查询并从Box内部存储的非结构化数据以及公共互联网来源中提取见解。这种方法不仅让客户能够访问最新信息,还能安全地搜索其内部专有数据,同时遵守其内部权限和安全策略。例如,金融服务公司可以构建一个自定义代理,调用Box AI代理,将存储在Box中的内部市场分析与网络上的实时新闻和经济数据相结合,为其分析师提供全面的投资决策视角。
Agents SDK与Responses API和Chat Completions API兼容。只要其他提供商的模型提供类似Chat Completions的API端点,SDK也可以与之配合使用。开发者可以立即将其集成到他们的Python代码库中,Node.js支持也将很快推出。开发者可以在文档中了解更多详情。
在设计Agents SDK时,OpenAI团队受到了社区其他优秀作品的启发,包括Pydantic、Griffe和MkDocs。OpenAI致力于将Agents SDK作为一个开源框架继续发展,以便社区能够在此基础上进行扩展。
(三)示例代码
以下是一个简单的Python代码示例,展示了如何使用Agents SDK构建和运行智能代理:
五、展望未来:构建智能代理平台
OpenAI相信,智能代理将成为未来劳动力的重要组成部分,显著提升各行业的生产力。随着公司越来越多地寻求利用AI完成复杂任务,OpenAI致力于提供构建模块,使开发者和企业能够有效创建能够产生实际影响的自主系统。
通过今天的发布,OpenAI引入了首批构建模块,赋予开发者和企业更轻松地构建、部署和扩展可靠、高性能的AI智能代理的能力。随着模型能力越来越具有代理性,OpenAI将继续投资于跨API的深度整合以及新工具的开发,以帮助在生产环境中部署、评估和优化智能代理。OpenAI的目标是为开发者提供一个无缝的平台体验,用于构建能够帮助各行业完成各种任务的智能代理。OpenAI期待看到开发者接下来构建的成果。开发者可以立即探索OpenAI的文档,并关注即将发布的更多更新。
在这个充满机遇的时代,OpenAI的这些新工具和API将为开发者提供强大的支持,助力他们将创意转化为现实,推动AI技术在各个领域的广泛应用。让我们拭目以待,看看这些智能代理将如何改变我们的未来!
本文转载自公众号Halo咯咯 作者:基咯咯
