击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天

51CTO技术栈

发布于 2024-12-23 09:59

浏览

0收藏

编辑｜言征、伊风

网友诚不我欺，o3果真来了！

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

就在昨天谷歌推出自己的多模态推理大模型Thingking之后，OpenAI终于坐不住了，在十二天直播的最后一天，发布了自己最先进的下一代模型o3！这里不得不感叹一句，友商的压力是无穷的～

不过，有朋友会好奇问，既然是下一代模型，为什么会跳过o2直接出o3呢？这可不是OpenAI今年挤牙膏式发布的风格。

原来是商标版权的问题：

据theinformation报道，OpenAI正在开发其下一代o1推理模型，在响应之前，这将需要更多时间来“思考”用户查询。然而，由于与英国电信服务提供商O2的潜在版权或商标冲突，该公司正在考虑跳过“o2”这个名字。

直播中，奥特曼也证明了这一说法。

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

这次OpenAI发布了两款型号：o3和o3 mini。前者性能最强，甚至可以在博士级科学任务上超过人类平均水平，当然也最贵；后者性价比被奥特曼称为“已经做了最大性价比的优化”。

有这样一句评价：o1只是用强化学习训练了GPT，o3才是真正的展现了推理Scaling Law定律的扩展空间。

看点上，聚光灯还是给到了o3的出色编程和数学能力。相信大家对于这两块已经审美疲劳了，不过不要紧，这次OpenAI引进了不少的新的测试用例和基准，给了大家耳目一新的感觉，值得一探。

打败99.9%人类程序员的超强编程能力

首先，作为被大模型率先盯上的生产力变革领域，大模型的编程能力，o3刷新了先有模型的基准。在流行的SWE基准测试上，o3达到了惊人的71.7的分数，可以理解成1000道编码工程问题，o3可以直接为717道问题生成正确的代码布丁并通过单元测试，而且用时还比人类少很多（分钟级）。

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

其次，还有一个非常新鲜的基准测试：Codeforces。这是个什么鬼？这里要首先科普下，cedeforce是一个人类编程竞技平台。这次测试就是要让AI 在 codeforces 上面参与竞赛，是跟人类选手一样，在比赛时才会拿到赛题。

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

如果高分参赛者输给了低分参赛者时，那么高分参赛者的 Elo 分数会下降，而低分参赛者的 Elo 分数会上升。令人吃惊的是，目前这个竞赛，有 168076 名来自全球各地的程序员参赛。

而o3竟然已经排到了175，Elo分数超过了2700分，有热心的网友直呼：这不意味着o3已经在编程竞技中击败了世界上 1-175/168076=99.9% 的程序员吗？

数学：刷榜最难数学测试，吊打sota

那么，o3这次在数学方面有哪些新看点呢？

一、在美国数学奥林匹克预科考试（AIME）中，o3只打错了一道题，在上一个版本o1最好的水平是答错了5道题目。

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

二、在处理博士级水平的科学任务方面，o3同样也得到了显著的代际提升，GPQA Diamond测试水平87.7%，已经超过了人类博士的平均水平（70%），o1的数字则是78.3%。

三、还有项测试：号称最难数学测试的 EpochAI Frontier Math，包含最新未公开前沿题目。o3在测试中比之前SOTA从2分提升到25分。这个也是没想到的，一下提高了12倍！

据说，这项测试难度极高，人类专业数学家解决其中一道题目也要花费数小时到数天，现在o3只需要思考几分钟了。

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

AGI测试新突破，迈入新阶段

Keras之父François Chollet发起了一项面向AGI能力的测试基准ARC-AGI，典型题目为图形逻辑推理。比如这样式儿的——

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

这些图形逻辑推理题对于人类而言并不是很难，但是它能考验模型推理的创新适应性能力，而o3在ARC-AGI上的分数从32%跃升到了75.7%、87.5%，可以说踏入了一个新阶段。

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

那为什么是两个分数？原因当然是因为o3设置了两个思考模式——低思考程度和高思考程度两种设置，高思考程度花费的算力也是大的吓人。

这里有两个冷知识——

1.这个ARC-AGI测试中，所有任务都具有独特性，无法提前准备；不需要特定的世界知识或语言能力；仅依赖人类普遍具备的核心认知能力。

2.AI 参与 ARC-AGI 测试的要求是：让AI在ARC-AGI-1公共训练集上进行训练，训练的预算成本要小于 1 万美元。

但，这并不意味着o3已经是AGI了，据介绍，在该项测试中，一些非常简单的任务，o3依旧会出错。

有关o3 mini

OpenAI 以思考的时间和成本为基准，不仅将 o3 系列分成了 o3 和 o3 mini，甚至更进一步的将 o3 mini 分成了 low、medium、high（低中高）三个型号。

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区

而 o1 的平均思考时间是 8.92 秒，o3 mini（high）直接翻了差不多两倍，达到了 23.33 秒的平均思考时间。

而 o3 mini（high）在一些任务上是 o1 水平，o3 旗舰版的平均思考时间这里没有放出来，有网友认为可能已经达到了分钟级。

基本上就是这些了，可以看出这次o3的发布，还是给出了不少惊喜：很多都是阶跃式的提升。

相信各位朋友对于能不能用上更感兴趣，目前o3也只是展示阶段，还没有真正开放使用，奥特曼透露，o3 mini会在明年1月底前发布，o3也会在那之后不久开放，现在呢，如果有心急的朋友可以先去申请测试：

https://openai.com/index/early-access-for-safety-testing/

最后附上以上12天的直播概览吧，小编也在辛苦的追！

OpenAI12天发布回顾

DAY-1: o1满血版上线

满血版o1上线多模态推理，推理速度和正确率比preview版显著提升
发布200美元/月的ChatGPT Pro 订阅计划，可无限制访问 o1，还可访问特供版o1 Pro

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

DAY-2: 新功能强化微调推出

强化微调功能上线，最低几十个例子就可创建专家模型，使开发人员能够创建针对各种领域复杂任务的专用AI模型

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

DAY-3: Sora公开可用

Sora上线，开放给ChatGPT Plus/Pro用户
Sora新增故事版（Storyboard）、Remix、Re-cut、Loop等功能

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

DAY-4: Canvas正式上线

Canvas上线，提供了智能写作、代码协作和AI智能体为一体的工作台

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

上图：Canvas界面，可以随时与ChatGPT交互

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区逐渐变得浓烈的圣诞装扮

DAY-5: 官宣和苹果的合作

ChatGPT宣布全面接入苹果设备，包括iPhone、iPad和Mac，支持Apple Intelligence

DAY-6: OpenAI的Her功能上线

此前的AI实时视频对话功能推出，允许用户通过摄像头与ChatGPT进行互动
团队用户、ChatGPT Plus/Pro用户可以访问此项功能

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

DAY-7: Projects 功能上线

ChatGPT添加了“Projects”功能，相当于给ChatGPT的对话搞了个文件夹
“Projects”允许用户组织聊天会话，并上传文件、设置项目指令

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

DAY-8: ChatGPT Search功能开放

ChatGPT Search功能开放给了免费用户，并进行了大量更新，包括实时搜索、高级语音等功能

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

DAY-9: API的重大更新

OpenAI将o1模型通过API全面向第三方开发者开放
宣布了对Realtime API的重大更新，价格全面下调（实时API音频token价格降了60%）
推出一种全新的微调方法——偏好微调，根据开发人员的偏好更轻松地定制模型

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区因为与o1有关，成员很有梗的穿了草莓毛衣

DAY-10: ChatGPT热线电话

OpenAI热线开通，美国用户拨打1-800-ChatGPT（或 1-800-242-8478）
短信服务：给上述号码发送WhatsApp获得ChatGPT回复

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

DAY-11: ChatGPT与Mac应用深度集成

桌面版ChatGPT打通了部分编程和写作应用，例如Warp、XCode、Notion，能够更加方便地执行任务

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

DAY-12: o3/o3 mini发布

OpenAI最新最强模型o3，在AGI测试方面跃升

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-AI.x社区图片

完结，撒花，冬至快乐～

本文转载自51CTO技术栈，作者：言征、伊风

标签

OpenAI

AGI

已于2024-12-26 17:00:29修改

社区头条

热门内容榜 • 最近上榜

51CTO

51CTO博客

51CTO学堂

击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天

打败99.9%人类程序员的超强编程能力

数学：刷榜最难数学测试，吊打sota

AGI测试新突破，迈入新阶段

有关o3 mini

OpenAI12天发布回顾

DAY-1: o1满血版上线

DAY-2: 新功能强化微调推出

DAY-3: Sora公开可用

DAY-4: Canvas正式上线

DAY-5: 官宣和苹果的合作

DAY-6: OpenAI的Her功能上线

DAY-7: Projects 功能上线

DAY-8: ChatGPT Search功能开放

DAY-9: API的重大更新

DAY-10: ChatGPT热线电话

DAY-11: ChatGPT与Mac应用深度集成

DAY-12: o3/o3 mini发布

目录