OpenAI砸碎了程序员的饭碗

发布于 2024-12-25 11:53
浏览
0收藏

一、O3究竟是什么?

1. 名称由来

为避免版权纠纷,OpenAI放弃了o2的命名,直接将其称为o3。


OpenAI砸碎了程序员的饭碗-AI.x社区图片

2. 编程能力

在编程领域,o3取得了惊人的成绩。在人类在线编程竞技平台codeforces上,o3模型的Elo得分达到2727分,排名第175位。在168076名全球参赛程序员中,o3击败了99.9%的程序员,超越了此前的GPT - 4o和o1等模型。这意味着o3在编程竞技中已达到顶尖水平,甚至超越了许多大厂中众多程序员的实力。要知道,字节跳动、腾讯、阿里等大厂都有10万量级的员工,每个公司里,光年薪百万的程序员都超过175个人了。o3的发布,将是冲击码农岗位需求和薪资的里程碑事件。


OpenAI砸碎了程序员的饭碗-AI.x社区图片

3. 真实软件工程能力

在SWE - bench测试中(SWE - bench挑战AI模型根据给定的Github代码库(codebase)和问题描述(issue)生成相应的代码补丁(patch)来解决问题,测试平台不仅关注算法解题能力,还全面评估AI模型在实际软件工程任务中的表现,包括但不限于代码缺陷检测、代码质量评估、代码变更预测等,其中SWE - bench Verified是其经过五年经验码农人工验证的子集,包含500个样本),o3跑分达到71.7,能为71.7%的问题生成正确代码补丁并通过单元测试,在模型中处于领先地位,甚至领先o1 20多个点的acc。这可能意味着,至少有70%本来需要程序员去救火的工程问题,o3能直接去解了。而问题的总量可能不会更多(甚至可能会因为o3打底早期代码而变得更少),但需要人类程序员去解决的需求却大量减少了。


OpenAI砸碎了程序员的饭碗-AI.x社区图片

4. 数学能力

在数学测试中,o3同样表现惊艳。在AIME 2024(数学测试基准)中得分96.7%,相当于在AMO美国数学奥林匹克竞赛上只答错1道题;在GPQA Diamond(博士级科学问题测试)中得分87.7%,甩开上一代o1接近10个百分点。

5. 图形逻辑推理能力

在ARC - AGI测试中(测试形式为图形逻辑推理,每轮举出3 - 5个例子,图形为1x1到30x30的网格图形,让AI根据图形变化规律预测下一个图形形式),o3微调成o3 low和o3 high两个模型。o3 low得分75.7%,符合公共排行榜成本要求,成为新榜单TOP1;o3 high得分87.5%,超越人类评估阈值(85),但训练成本大约是o3 low的172倍,超出1万美元成本要求。此前的ChatGPT各种型号在这项测试中的得分惨不忍睹,如GPT - 3为0%,GPT - 4为2%,GPT - 4o为5%,o1 - preview为21%,o1满血版为32%,o1 Pro为50%左右。


OpenAI砸碎了程序员的饭碗-AI.x社区图片

6. 高级数学推理能力

在FrontierMath测试(由Epoch AI推出,专门评估AI高级数学推理能力,地狱级难度,测试内容为最新未发表题目,经验丰富的人类数学专家解答也需数小时或数天,1998年菲尔兹奖得主Tim Gowers评价即使答对一个问题也远超现在能力范围)中,o3在不限制时间的情况下得分可达25.2%,而此前最强模型得分仅2%。


OpenAI砸碎了程序员的饭碗-AI.x社区图片


OpenAI砸碎了程序员的饭碗-AI.x社区图片

7. O3强大的原因

OpenAI研究员表示,o1验证了LLM + RL范式可行,但o3通过scaling up真正发挥了该范式的威力,证明了对于编程、数学等任务,RL范式可提升上限。

8. O3的缺点

o3成本极高,在ARC - AGI团队描述中,是有史以来最昂贵的模型之一。除此之外,模型思考时间变长,o1的平均思考时间是8.92秒,o3 mini(high)平均思考时间达到23.33秒,差不多是o1的两倍,o3旗舰版平均思考时间可能已达分钟级。


OpenAI砸碎了程序员的饭碗-AI.x社区图片

二、O3 mini即将推出

好消息是,o3 mini预计明年1月底推出,上线后将开放API调用,并附带o1的所有API功能。

o3的出现无疑是人工智能发展的一个重要里程碑,它在多个领域展现出的强大能力,不仅让我们看到了技术的巨大进步,也让我们对未来充满了期待和担忧。它是否真的会如预测的那样,对码农职业产生巨大冲击?又将如何改变我们的生活和工作?让我们一起拭目以待吧!

本文转载自 AI论文解读​,作者:柏企


收藏
回复
举报
回复
相关推荐