击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天-51CTO.COM

编辑｜言征、伊风

网友诚不我欺，o3果真来了！

图片

就在昨天谷歌推出自己的多模态推理大模型Thingking之后，OpenAI终于坐不住了，在十二天直播的最后一天，发布了自己最先进的下一代模型o3！这里不得不感叹一句，友商的压力是无穷的～

不过，有朋友会好奇问，既然是下一代模型，为什么会跳过o2直接出o3呢？这可不是OpenAI今年挤牙膏式发布的风格。

原来是商标版权的问题：

据theinformation报道，OpenAI正在开发其下一代o1推理模型，在响应之前，这将需要更多时间来“思考”用户查询。然而，由于与英国电信服务提供商O2的潜在版权或商标冲突，该公司正在考虑跳过“o2”这个名字。

直播中，奥特曼也证明了这一说法。

图片

这次OpenAI发布了两款型号：o3和o3 mini。前者性能最强，甚至可以在博士级科学任务上超过人类平均水平，当然也最贵；后者性价比被奥特曼称为“已经做了最大性价比的优化”。

有这样一句评价：o1只是用强化学习训练了GPT，o3才是真正的展现了推理Scaling Law定律的扩展空间。

看点上，聚光灯还是给到了o3的出色编程和数学能力。相信大家对于这两块已经审美疲劳了，不过不要紧，这次OpenAI引进了不少的新的测试用例和基准，给了大家耳目一新的感觉，值得一探。

打败99.9%人类程序员的超强编程能力

首先，作为被大模型率先盯上的生产力变革领域，大模型的编程能力，o3刷新了先有模型的基准。在流行的SWE基准测试上，o3达到了惊人的71.7的分数，可以理解成1000道编码工程问题，o3可以直接为717道问题生成正确的代码布丁并通过单元测试，而且用时还比人类少很多（分钟级）。

图片

其次，还有一个非常新鲜的基准测试：Codeforces。这是个什么鬼？这里要首先科普下，cedeforce是一个人类编程竞技平台。这次测试就是要让AI 在 codeforces 上面参与竞赛，是跟人类选手一样，在比赛时才会拿到赛题。

图片

如果高分参赛者输给了低分参赛者时，那么高分参赛者的 Elo 分数会下降，而低分参赛者的 Elo 分数会上升。令人吃惊的是，目前这个竞赛，有 168076 名来自全球各地的程序员参赛。

而o3竟然已经排到了175，Elo分数超过了2700分，有热心的网友直呼：这不意味着o3已经在编程竞技中击败了世界上 1-175/168076=99.9% 的程序员吗？

数学：刷榜最难数学测试，吊打sota

那么，o3这次在数学方面有哪些新看点呢？

一、在美国数学奥林匹克预科考试（AIME）中，o3只打错了一道题，在上一个版本o1最好的水平是答错了5道题目。

图片

二、在处理博士级水平的科学任务方面，o3同样也得到了显著的代际提升，GPQA Diamond测试水平87.7%，已经超过了人类博士的平均水平（70%），o1的数字则是78.3%。

三、还有项测试：号称最难数学测试的 EpochAI Frontier Math，包含最新未公开前沿题目。o3在测试中比之前SOTA从2分提升到25分。这个也是没想到的，一下提高了12倍！

据说，这项测试难度极高，人类专业数学家解决其中一道题目也要花费数小时到数天，现在o3只需要思考几分钟了。

图片

AGI测试新突破，迈入新阶段

Keras之父François Chollet发起了一项面向AGI能力的测试基准ARC-AGI，典型题目为图形逻辑推理。比如这样式儿的——

图片

这些图形逻辑推理题对于人类而言并不是很难，但是它能考验模型推理的创新适应性能力，而o3在ARC-AGI上的分数从32%跃升到了75.7%、87.5%，可以说踏入了一个新阶段。

图片

那为什么是两个分数？原因当然是因为o3设置了两个思考模式——低思考程度和高思考程度两种设置，高思考程度花费的算力也是大的吓人。

这里有两个冷知识——

1.这个ARC-AGI测试中，所有任务都具有独特性，无法提前准备；不需要特定的世界知识或语言能力；仅依赖人类普遍具备的核心认知能力。

2.AI 参与 ARC-AGI 测试的要求是：让AI在ARC-AGI-1公共训练集上进行训练，训练的预算成本要小于 1 万美元。

但，这并不意味着o3已经是AGI了，据介绍，在该项测试中，一些非常简单的任务，o3依旧会出错。

有关o3 mini

OpenAI 以思考的时间和成本为基准，不仅将 o3 系列分成了 o3 和 o3 mini，甚至更进一步的将 o3 mini 分成了 low、medium、high（低中高）三个型号。

而 o1 的平均思考时间是 8.92 秒，o3 mini（high）直接翻了差不多两倍，达到了 23.33 秒的平均思考时间。

而 o3 mini（high）在一些任务上是 o1 水平，o3 旗舰版的平均思考时间这里没有放出来，有网友认为可能已经达到了分钟级。

基本上就是这些了，可以看出这次o3的发布，还是给出了不少惊喜：很多都是阶跃式的提升。

相信各位朋友对于能不能用上更感兴趣，目前o3也只是展示阶段，还没有真正开放使用，奥特曼透露，o3 mini会在明年1月底前发布，o3也会在那之后不久开放，现在呢，如果有心急的朋友可以先去申请测试：https://openai.com/index/early-access-for-safety-testing/

最后附上以上12天的直播概览吧，小编也在辛苦的追！