OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作! 原创

发布于 2025-1-24 12:39
浏览
0收藏

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

起猛了!ChatGPT有行动能力了!

OpenAI的首款智能体深夜上线,觉醒L3能力。

在直播中,他们这样解读这件大事的意义:智能体可以在数字世界中移动和行动,消除了通往 AGI(人工通用智能)道路上的一个瓶颈!

说回Operator:AI不只能和你交流,还能帮你在线打酱油了。

奥特曼是这样介绍的:“就像您使用web浏览器一样,你可以获取像素,你可以看着屏幕,Operator可以做到这一点,然后控制键盘和鼠标并做各种事情”。

OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作!-AI.x社区图片

在直播demo的演示中,Operator观看了一份手写食谱,并自己登上了“某某买菜”,开始挑选鸡蛋:

OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作!-AI.x社区

更有趣的是,在一个用户的测试案例中,Operator遇到了“确认你是否是人类”的灵魂拷问。

Operator犹豫了下,选择求助人类帮忙按按钮。

OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作!-AI.x社区

看来从技术上说,这类验证码已经拦不住AI了(但道德上还能)。

当然,Operator也是200美元Pro用户的专属福利了。同样是先登录在美国,稍后才会在其他国家上线。

OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作!-AI.x社区图片

有趣的是,OpenAI被刚列入美实体清单的智谱抢跑了一天。

同样是智能体,咱们就这么水灵灵地全员免费!

​https://cogagent.aminer.cn​

OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作!-AI.x社区图片

无论国内还是国外,有一个论断是绝对的:2025是智能体之年!

奥特曼表示:未来几周和几个月还有更多智能体在路上。

OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作!-AI.x社区图片

OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作!-AI.x社区上图:OpenAI总裁 Brockman

1.实测:Operator超绝理解力与灵活度,但偶尔也翻车

一张甜品的网图,Operator能帮你买所有需要的烘焙原料!再也不用在多个APP中挑战了。

OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作!-AI.x社区

而且,Operator确实“聪明”。在问题的解决上展现了非常高的灵活度。

在实测的例子中,Operator发现自己被 Reddit 屏蔽了。这个墙就能困住AI了?Operator随后点开必应搜索,在搜索词后面加上 "Reddit",顺利找到了自己要浏览的内容!

OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作!-AI.x社区

不过,智能体作为比较初级的形态,Operator肯定也是不完美的。

OpenAI在直播里就放出了一些“翻车”时刻。

上一秒:Operator不只能在这些推荐的APP里用,你几乎可以在任何网站使用。

OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作!-AI.x社区图片

下一秒:被卡住

OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作!-AI.x社区图片

2.Operator实现原理——GPT-4o是其基座

在直播中,白衣小哥为观众揭秘了下Operator的实现。

Operator基于一个新模型CUA,而CUA则是基于 GPT-4o 构建的。

技术的发展真是环环相扣,非常美妙!

OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作!-AI.x社区图片

引用下小哥的话,具体说说:Operator 是基于OpenAI训练的新模型,称之为计算机使用代理(Computer Using Agent),简称 CUA。

CUA 是基于 GPT-4o 构建的模型,但它也经过训练,可以像人类一样使用屏幕、鼠标和键盘来控制计算机。

在此之前,如果你想构建类似 Operator 的东西,而没有 CUA,你需要使用一些专门的 API。例如,如果你希望模型从 Instacart 购买商品,你需要弄清楚 Instacart 是否有 API,还要确认那个 API 是否包含所需的所有功能,并且你得给模型提供该 API 的规格。但如果你的目标是像大多数其他网站那样没有 API,那就没戏了。

就是这样,完全依赖于截图,而 CUA 就是通过教模型如何使用我们每天都在用的基本界面,打开了一整套原本无法使用的软件。

这项酷炫的研究项目就是在这方面,它帮助我们消除了通往 AGI(人工通用智能)道路上的一个瓶颈,让我们的代理可以在数字世界中移动和行动。

而在一个具体的任务中,CUA是这么使用计算机的:

CUA 在控制计算机时做的第一件事就是查看截图。

例如,Operator 现在看到的是 Instacart(线上买菜) 上搜索“鸡蛋”的结果页面。CUA 看懂了这些,它看到的只是原始像素,看到这张图片后,它决定接下来做什么。所以现在它正在进行一些内心独白,左侧会出现总结后的思维链。

每次 CUA 执行一个操作时,它都会拍下一张计算机的截图,这样它就能知道它的操作对计算机产生了什么效果。

3.插曲:星际之门已经开工

OpenAI最近也是大动作频繁。

宣布星际之门计划后,马斯克再次和奥特曼在X上打起了口水战。

马斯克也是个狠人,直接质疑特朗普官宣的项目,他在社交媒体X上表示:“他们实际上没有那么多钱。软银目前只筹集到不到100亿美元的资金,我有可靠的消息来源。

随后,记者向微软CEO纳德拉询问此事,对方说:“我只知道,我的800亿美元资金没问题。”

马斯克在X上转发了纳德拉的采访视频,并评论称:“从另一方面来说,萨蒂亚绝对有这笔钱”。

而奥特曼不语,只是一味地炫了一把已经在德州开工的星际之门站点1。

OpenAI首款智能体上线!揭秘原理:基座竟是GPT-4o+思维链?智能体爆发前夜:智谱抢跑、OpenAI还有动作!-AI.x社区图片

看来,2025年除了智能体,也不会缺少其他精彩的大戏和看点。

本文转载自​​51CTO技术栈​​,作者:伊风

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-1-24 13:50:28修改
收藏
回复
举报
回复
相关推荐