OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作! 原创
编辑 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
起猛了!ChatGPT有行动能力了!
OpenAI的首款智能体深夜上线,觉醒L3能力。
在直播中,他们这样解读这件大事的意义:智能体可以在数字世界中移动和行动,消除了通往 AGI(人工通用智能)道路上的一个瓶颈!
说回Operator:AI不只能和你交流,还能帮你在线打酱油了。
奥特曼是这样介绍的:“就像您使用web浏览器一样,你可以获取像素,你可以看着屏幕,Operator可以做到这一点,然后控制键盘和鼠标并做各种事情”。
图片
在直播demo的演示中,Operator观看了一份手写食谱,并自己登上了“某某买菜”,开始挑选鸡蛋:
更有趣的是,在一个用户的测试案例中,Operator遇到了“确认你是否是人类”的灵魂拷问。
Operator犹豫了下,选择求助人类帮忙按按钮。
看来从技术上说,这类验证码已经拦不住AI了(但道德上还能)。
当然,Operator也是200美元Pro用户的专属福利了。同样是先登录在美国,稍后才会在其他国家上线。
图片
有趣的是,OpenAI被刚列入美实体清单的智谱抢跑了一天。
同样是智能体,咱们就这么水灵灵地全员免费!
https://cogagent.aminer.cn
图片
无论国内还是国外,有一个论断是绝对的:2025是智能体之年!
奥特曼表示:未来几周和几个月还有更多智能体在路上。
图片
上图:OpenAI总裁 Brockman
1.实测:Operator超绝理解力与灵活度,但偶尔也翻车
一张甜品的网图,Operator能帮你买所有需要的烘焙原料!再也不用在多个APP中挑战了。
而且,Operator确实“聪明”。在问题的解决上展现了非常高的灵活度。
在实测的例子中,Operator发现自己被 Reddit 屏蔽了。这个墙就能困住AI了?Operator随后点开必应搜索,在搜索词后面加上 "Reddit",顺利找到了自己要浏览的内容!
不过,智能体作为比较初级的形态,Operator肯定也是不完美的。
OpenAI在直播里就放出了一些“翻车”时刻。
上一秒:Operator不只能在这些推荐的APP里用,你几乎可以在任何网站使用。
图片
下一秒:被卡住
图片
2.Operator实现原理——GPT-4o是其基座
在直播中,白衣小哥为观众揭秘了下Operator的实现。
Operator基于一个新模型CUA,而CUA则是基于 GPT-4o 构建的。
技术的发展真是环环相扣,非常美妙!
图片
引用下小哥的话,具体说说:Operator 是基于OpenAI训练的新模型,称之为计算机使用代理(Computer Using Agent),简称 CUA。
CUA 是基于 GPT-4o 构建的模型,但它也经过训练,可以像人类一样使用屏幕、鼠标和键盘来控制计算机。
在此之前,如果你想构建类似 Operator 的东西,而没有 CUA,你需要使用一些专门的 API。例如,如果你希望模型从 Instacart 购买商品,你需要弄清楚 Instacart 是否有 API,还要确认那个 API 是否包含所需的所有功能,并且你得给模型提供该 API 的规格。但如果你的目标是像大多数其他网站那样没有 API,那就没戏了。
就是这样,完全依赖于截图,而 CUA 就是通过教模型如何使用我们每天都在用的基本界面,打开了一整套原本无法使用的软件。
这项酷炫的研究项目就是在这方面,它帮助我们消除了通往 AGI(人工通用智能)道路上的一个瓶颈,让我们的代理可以在数字世界中移动和行动。
而在一个具体的任务中,CUA是这么使用计算机的:
CUA 在控制计算机时做的第一件事就是查看截图。
例如,Operator 现在看到的是 Instacart(线上买菜) 上搜索“鸡蛋”的结果页面。CUA 看懂了这些,它看到的只是原始像素,看到这张图片后,它决定接下来做什么。所以现在它正在进行一些内心独白,左侧会出现总结后的思维链。
每次 CUA 执行一个操作时,它都会拍下一张计算机的截图,这样它就能知道它的操作对计算机产生了什么效果。
3.插曲:星际之门已经开工
OpenAI最近也是大动作频繁。
宣布星际之门计划后,马斯克再次和奥特曼在X上打起了口水战。
马斯克也是个狠人,直接质疑特朗普官宣的项目,他在社交媒体X上表示:“他们实际上没有那么多钱。软银目前只筹集到不到100亿美元的资金,我有可靠的消息来源。
随后,记者向微软CEO纳德拉询问此事,对方说:“我只知道,我的800亿美元资金没问题。”
马斯克在X上转发了纳德拉的采访视频,并评论称:“从另一方面来说,萨蒂亚绝对有这笔钱”。
而奥特曼不语,只是一味地炫了一把已经在德州开工的星际之门站点1。
图片
看来,2025年除了智能体,也不会缺少其他精彩的大戏和看点。
本文转载自51CTO技术栈,作者:伊风