大概北京时间昨天下午五点左右,继上次的星际之门项目之后,OpenAI 再次成为 AI 社区的热门关键词,因为有 ChatGPT Pro 用户发现其用户界面中多了一个叫做 Operator 的选项。这是 OpenAI 的 Computer Use 智能体要来了吗?
大概是因为这个消息,ChatGPT 访问量突然暴增,大量用户上线想要一探究竟,让 ChatGPT 承受不住,直接投降了。
宕机大概持续了 3 小时。
凌晨 2 点,直播开始,Operator 与 Agents 发布。
我们终于看到了 Operator 的真身,它是一个研究预览(research preview)版本的智能体,可以访问互联网来为用户自动执行各种任务。OpenAI 表示希望很快将它集成到ChatGPT中。目前,Operator 只供美国的 Pro 用户使用。
虽然 computer use 类智能体早已经不新鲜,毕竟 Anthropic 早在去年 10 月就已经发布了自己的 computer use 功能。而就在昨日,国内大模型厂商智谱的电脑智能体 GLM-PC 也开放了体验,它能像人类一样「观察」和「操作」计算机,协助用户高效完成各类电脑任务。并且现在市面上还有不少开源实现,但 Operator 发布后还是引起了社交网络一片沸腾 —— 毕竟这是 OpenAI。
OpenAI 总裁 Greg Brockman 再次重申了他的观点:2025 年是智能体之年。
也已经有动作快的 Pro 用户分享了自己的使用案例,像是根据图片和菜谱订购晚餐食材、根据 Reddit 上分享的冷门景点规划周末旅行、研究加密货币投资等等。
又或者,通过用户点评找到斯德哥尔摩最好的酒店。
当然,吐嘈调侃 OpenAI 的网友也有不少。
Operator 功能演示与技术概览
Operator 的用户界面如下:
OpenAI 表示,Operator 由一个名为「计算机使用智能体」(Computer-Using Agent,CUA)的新模型提供支持。CUA 将 GPT-4o 的视觉功能与通过强化学习获得的高级推理相结合,经过训练可以与图形用户界面 (GUI,即人们在屏幕上看到的按钮、菜单和文本字段)进行交互。
就其功能来说,Operator 可以「查看」(通过屏幕截图)和「交互」(使用鼠标和键盘允许的所有操作)浏览器,从而使其无需自定义 API 集成即可在 Web 上采取行动。
同时,如果遇到挑战或犯错,Operator 可以利用其推理能力进行自我纠正。当 Operator 卡住并需要帮助时,它只需将控制权交还给用户,确保流畅的协作体验。
我们来看几个 Operator 的演示功能,比如帮你预订餐厅:
再比如上传一张图片(手写购物单),上面有你想要买的各种东西,直接让 Operator 帮你买。它会首先给你建议并执行操作:
Operator 还能帮你订票,期间用户可以随时接管,并在调整后让它继续工作:
而 Operator 背后的模型 CUA 建立在多模态理解和推理交叉领域多年的基础研究基础之上,通过将高级 GUI 感知与结构化问题求解相结合,它可以将任务分解为多步骤规划,并在出现挑战时自适应地自我纠正。此功能标志着 AI 开发的下一步,允许模型使用人类日常使用的工具,并为大量新应用开启新的大门。
CUA 的工作原理
CUA 可通过处理原始像素数据来了解屏幕上发生的事情,并使用虚拟鼠标和键盘完成操作。CUA 可以导航多步骤任务、处理错误并适应意外变化,这使其能够在广泛的数字环境中运行,执行填写表格和浏览网站等任务,而无需专门的 API。
具体地,根据用户的指令,CUA 通过集成感知(Perception)、推理(Reasoning)和行动(Action)的迭代循环进行操作:
- 感知:计算机的屏幕截图被添加到模型的上下文中,提供计算机当前状态的视觉快照;
- 推理:使用思路链推理后续步骤,同时考虑当前和过去的屏幕截图和操作。这种「内心独白」通过使模型评估其观察结果、跟踪中间步骤并动态调整来提高任务性能;
- 行动:执行操作(单击、滚动或键入),直到它决定任务已完成或需要用户输入。虽然它会自动处理大多数步骤,但 CUA 会寻求用户确认敏感操作,例如输入登录详细信息或响应 CAPTCHA 表单。
OpenAI 也表示,CUA 仍处于早期阶段且存在局限性。不过,CUA 仍然取得了全新的 SOTA 基准测试结果,其中在 OSWorld(真实计算机环境中开放式任务的多模式智能体基准测试) 上实现 38.1% 的完整计算机使用任务成功率,在 WebArena(用于构建自主智能体的真实网络环境) 上实现了 58.1% 的成功率,在 WebVoyager(大型多模态网络智能体基准) 上实现 87% 的 Web 端任务。
这些结果证明了 CUA 使用单一通用操作空间在不同环境中导航和操作的能力。
使用方式
根据描述,Operator 的使用方法很简单。用户只需描述想要完成的任务,然后 Operator 就可以自己完成。用户也可以随时接管其远程浏览器,Operator 也可以根据当前任务执行情况主动向用户请求登录、录入付款详细信息或解决验证码等任务。
用户可以在 Operator 中通过添加自定义指令来个性化自己的工作流程,无论是针对所有网站还是特定网站,比如可以在航班预订网站设置自己偏好的航空公司。Operator 允许用户在主页上保存快速访问的提示词,这非常适合完成一些重复任务,比如购买日常消耗品。类似于在浏览器上使用多个页面,用户可以通过创建新对话让 Operator 同时运行多个任务,例如在一个网站上订购个性化搪瓷杯,同时在另一个网站上预订露营地。
生态系统与用户
OpenAI 表示:「Operator 可将 AI 从被动工具转变为数字生态系统的积极参与者。它将简化用户的任务,并为那些希望获得创新客户体验并希望提高转化率的公司带来智能体的好处。」OpenAI 也宣布了当前的一些合作企业与服务,包括 DoorDash、Instacart、OpenTable、Uber 等。同时,OpenAI 还在努力改善 Operator 在公共部门应用中的适用性,为此他们还与斯托克顿市等组织建立了合作关系。
安全和隐私
在很多用户关心的安全问题上,OpenAI 也进行了说明。该公司表示 Operator 采用了 3 层保护机制,可以防止该工具被滥用同时确保用户掌控。
第一层,Operator 可以确保使用它的用户总是具有控制权,并会在关键时刻请求用户输入。这涉及到四个方面:
- 接管模式:在向浏览器输入敏感信息时,Operator 会请求用户接管。在接管模式下,Operator 不会收集或截取用户输入的信息。
- 用户确认:在完成任何重要操作(例如提交订单或发送电子邮件)之前,Operator 会征求批准。
- 任务限制:Operator 会拒绝某些敏感任务,例如银行交易或需要高风险决策的任务,例如决定一份工作申请。
- 监视模式:在特别敏感的网站上,例如电子邮件或金融服务,Operator 会要求密切监督其行为,从而可让用户直接发现任何潜在的错误。
第二层,OpenAI 简化了 Operator 的数据隐私管理方式。
- 退出训练:用户可在 ChatGPT 设置中关闭「为所有人改进模型」,这样其 Operator 中的数据就不会用于训练模型。
- 透明的数据管理:用户可以在 Operator 设置的「隐私」部分下一键删除所有浏览数据并退出所有网站。Operator 中的过去对话也可以一键删除。
第三层,针对可能试图通过隐藏提示、恶意代码或网络钓鱼尝试误导 Operator 的恶意网站,OpenAI 也建立了一些防御措施:
- 谨慎导航:Operator 在设计时就考虑了检测和忽视提示词注入攻击。
- 监控:有一个专门的「监控模型」来监视可疑行为,如果出现异常,可以暂停任务。
- 检测管道:OpenAI 部署了一个持续识别新威胁并快速更新保障措施的自动和人工审核流程。
OpenAI 表示:「我们知道坏人可能会试图滥用这项技术,因此我们将 Operator 设计为可以拒绝有害请求和阻止不允许的内容。我们的审核系统可以对重复违规行为发出警告甚至撤销访问权限,并且我们集成了其他审核流程来检测和解决滥用问题。」
未来计划
OpenAI 在博客中简单公布了对 Operator 的未来计划。
- 通过 API 使用 CUA:OpenAI 表示很快就会通过 API 揭示驱动 Operator 的模型,以便开发者可以使用它来构建自己的 computer use 智能体。
- 增强功能:还将继续提高 Operator 处理更长、更复杂工作流程的能力。
- 让更多人可用:OpenAI 还计划将 Operator 扩展到 Plus、Team 和 Enterprise 用户。并且该公司还表示,一旦在安全性与大规模可用性方面建立信心后,就会将该功能直接集成到 ChatGPT 中,从而实现无缝的实时和异步任务执行。
项目贡献者
OpenAI 也在博客中发布了相关贡献者名单。
参考链接:
- https://openai.com/index/introducing-operator/
- https://openai.com/index/computer-using-agent/