击败99.9%的程序员!o3来了!AGI测试实现跃升!网友:推理scaling law太炸了!一文回顾OpenAI直播带货12天
编辑 | 言征、伊风
网友诚不我欺,o3果真来了!
图片
就在昨天谷歌推出自己的多模态推理大模型Thingking之后,OpenAI终于坐不住了,在十二天直播的最后一天,发布了自己最先进的下一代模型o3!这里不得不感叹一句,友商的压力是无穷的~
不过,有朋友会好奇问,既然是下一代模型,为什么会跳过o2直接出o3呢?这可不是OpenAI今年挤牙膏式发布的风格。
原来是商标版权的问题:
据theinformation报道,OpenAI正在开发其下一代o1推理模型,在响应之前,这将需要更多时间来“思考”用户查询。然而,由于与英国电信服务提供商O2的潜在版权或商标冲突,该公司正在考虑跳过“o2”这个名字。
直播中,奥特曼也证明了这一说法。
图片
这次OpenAI发布了两款型号:o3和o3 mini。前者性能最强,甚至可以在博士级科学任务上超过人类平均水平,当然也最贵;后者性价比被奥特曼称为“已经做了最大性价比的优化”。
有这样一句评价:o1只是用强化学习训练了GPT,o3才是真正的展现了推理Scaling Law定律的扩展空间。
看点上,聚光灯还是给到了o3的出色编程和数学能力。相信大家对于这两块已经审美疲劳了,不过不要紧,这次OpenAI引进了不少的新的测试用例和基准,给了大家耳目一新的感觉,值得一探。
打败99.9%人类程序员的超强编程能力
首先,作为被大模型率先盯上的生产力变革领域,大模型的编程能力,o3刷新了先有模型的基准。在流行的SWE基准测试上,o3达到了惊人的71.7的分数,可以理解成1000道编码工程问题,o3可以直接为717道问题生成正确的代码布丁并通过单元测试,而且用时还比人类少很多(分钟级)。
图片
其次,还有一个非常新鲜的基准测试:Codeforces。这是个什么鬼?这里要首先科普下,cedeforce是一个人类编程竞技平台。这次测试就是要让AI 在 codeforces 上面参与竞赛,是跟人类选手一样,在比赛时才会拿到赛题。
图片
如果高分参赛者输给了低分参赛者时,那么高分参赛者的 Elo 分数会下降,而低分参赛者的 Elo 分数会上升。令人吃惊的是,目前这个竞赛,有 168076 名来自全球各地的程序员参赛。
而o3竟然已经排到了175,Elo分数超过了2700分,有热心的网友直呼:这不意味着o3已经在编程竞技中击败了世界上 1-175/168076=99.9% 的程序员吗?
数学:刷榜最难数学测试,吊打sota
那么,o3这次在数学方面有哪些新看点呢?
一、在美国数学奥林匹克预科考试(AIME)中,o3只打错了一道题,在上一个版本o1最好的水平是答错了5道题目。
图片
二、在处理博士级水平的科学任务方面,o3同样也得到了显著的代际提升,GPQA Diamond测试水平87.7%,已经超过了人类博士的平均水平(70%),o1的数字则是78.3%。
三、还有项测试:号称最难数学测试的 EpochAI Frontier Math,包含最新未公开前沿题目。o3在测试中比之前SOTA从2分提升到25分。这个也是没想到的,一下提高了12倍!
据说,这项测试难度极高,人类专业数学家解决其中一道题目也要花费数小时到数天,现在o3只需要思考几分钟了。
图片
AGI测试新突破,迈入新阶段
Keras之父François Chollet发起了一项面向AGI能力的测试基准ARC-AGI,典型题目为图形逻辑推理。比如这样式儿的——
图片
这些图形逻辑推理题对于人类而言并不是很难,但是它能考验模型推理的创新适应性能力,而o3在ARC-AGI上的分数从32%跃升到了75.7%、87.5%,可以说踏入了一个新阶段。
图片
那为什么是两个分数?原因当然是因为o3设置了两个思考模式——低思考程度和高思考程度两种设置,高思考程度花费的算力也是大的吓人。
这里有两个冷知识——
1.这个ARC-AGI测试中,所有任务都具有独特性,无法提前准备;不需要特定的世界知识或语言能力;仅依赖人类普遍具备的核心认知能力。
2.AI 参与 ARC-AGI 测试的要求是:让AI在ARC-AGI-1公共训练集上进行训练,训练的预算成本要小于 1 万美元。
但,这并不意味着o3已经是AGI了,据介绍,在该项测试中,一些非常简单的任务,o3依旧会出错。
有关o3 mini
OpenAI 以思考的时间和成本为基准,不仅将 o3 系列分成了 o3 和 o3 mini,甚至更进一步的将 o3 mini 分成了 low、medium、high(低中高)三个型号。
而 o1 的平均思考时间是 8.92 秒,o3 mini(high)直接翻了差不多两倍,达到了 23.33 秒的平均思考时间。
而 o3 mini(high)在一些任务上是 o1 水平,o3 旗舰版的平均思考时间这里没有放出来,有网友认为可能已经达到了分钟级。
基本上就是这些了,可以看出这次o3的发布,还是给出了不少惊喜:很多都是阶跃式的提升。
相信各位朋友对于能不能用上更感兴趣,目前o3也只是展示阶段,还没有真正开放使用,奥特曼透露,o3 mini会在明年1月底前发布,o3也会在那之后不久开放,现在呢,如果有心急的朋友可以先去申请测试:
https://openai.com/index/early-access-for-safety-testing/
最后附上以上12天的直播概览吧,小编也在辛苦的追!
OpenAI12天发布回顾
DAY-1: o1满血版上线
- 满血版o1上线多模态推理,推理速度和正确率比preview版显著提升
- 发布200美元/月的ChatGPT Pro 订阅计划,可无限制访问 o1,还可访问特供版o1 Pro
图片
DAY-2: 新功能强化微调推出
- 强化微调功能上线,最低几十个例子就可创建专家模型,使开发人员能够创建针对各种领域复杂任务的专用AI模型
图片
DAY-3: Sora公开可用
- Sora上线,开放给ChatGPT Plus/Pro用户
- Sora新增故事版(Storyboard)、Remix、Re-cut、Loop等功能
图片
DAY-4: Canvas正式上线
- Canvas上线,提供了智能写作、代码协作和AI智能体为一体的工作台
图片
上图:Canvas界面,可以随时与ChatGPT交互
逐渐变得浓烈的圣诞装扮
DAY-5: 官宣和苹果的合作
- ChatGPT宣布全面接入苹果设备,包括iPhone、iPad和Mac,支持Apple Intelligence
DAY-6: OpenAI的Her功能上线
- 此前的AI实时视频对话功能推出,允许用户通过摄像头与ChatGPT进行互动
- 团队用户、ChatGPT Plus/Pro用户可以访问此项功能
图片
DAY-7: Projects 功能上线
- ChatGPT添加了“Projects”功能,相当于给ChatGPT的对话搞了个文件夹
- “Projects”允许用户组织聊天会话,并上传文件、设置项目指令
图片
DAY-8: ChatGPT Search功能开放
- ChatGPT Search功能开放给了免费用户,并进行了大量更新,包括实时搜索、高级语音等功能
图片
DAY-9: API的重大更新
- OpenAI将o1模型通过API全面向第三方开发者开放
- 宣布了对Realtime API的重大更新,价格全面下调(实时API音频token价格降了60%)
- 推出一种全新的微调方法——偏好微调,根据开发人员的偏好更轻松地定制模型
因为与o1有关,成员很有梗的穿了草莓毛衣
DAY-10: ChatGPT热线电话
- OpenAI热线开通,美国用户拨打1-800-ChatGPT(或 1-800-242-8478)
- 短信服务:给上述号码发送WhatsApp获得ChatGPT回复
图片
DAY-11: ChatGPT与Mac应用深度集成
- 桌面版ChatGPT打通了部分编程和写作应用,例如Warp、XCode、Notion,能够更加方便地执行任务
图片
DAY-12: o3/o3 mini发布
- OpenAI最新最强模型o3,在AGI测试方面跃升
图片
完结,撒花,冬至快乐~
本文转载自51CTO技术栈,作者: 言征、伊风