OpenAI砸碎了程序员的饭碗

AI论文解读

发布于 2024-12-25 11:53

浏览

0收藏

一、O3究竟是什么？

1. 名称由来

为避免版权纠纷，OpenAI放弃了o2的命名，直接将其称为o3。

OpenAI砸碎了程序员的饭碗-AI.x社区图片

2. 编程能力

在编程领域，o3取得了惊人的成绩。在人类在线编程竞技平台codeforces上，o3模型的Elo得分达到2727分，排名第175位。在168076名全球参赛程序员中，o3击败了99.9%的程序员，超越了此前的GPT - 4o和o1等模型。这意味着o3在编程竞技中已达到顶尖水平，甚至超越了许多大厂中众多程序员的实力。要知道，字节跳动、腾讯、阿里等大厂都有10万量级的员工，每个公司里，光年薪百万的程序员都超过175个人了。o3的发布，将是冲击码农岗位需求和薪资的里程碑事件。

OpenAI砸碎了程序员的饭碗-AI.x社区图片

3. 真实软件工程能力

在SWE - bench测试中（SWE - bench挑战AI模型根据给定的Github代码库（codebase）和问题描述（issue）生成相应的代码补丁（patch）来解决问题，测试平台不仅关注算法解题能力，还全面评估AI模型在实际软件工程任务中的表现，包括但不限于代码缺陷检测、代码质量评估、代码变更预测等，其中SWE - bench Verified是其经过五年经验码农人工验证的子集，包含500个样本），o3跑分达到71.7，能为71.7%的问题生成正确代码补丁并通过单元测试，在模型中处于领先地位，甚至领先o1 20多个点的acc。这可能意味着，至少有70%本来需要程序员去救火的工程问题，o3能直接去解了。而问题的总量可能不会更多（甚至可能会因为o3打底早期代码而变得更少），但需要人类程序员去解决的需求却大量减少了。

OpenAI砸碎了程序员的饭碗-AI.x社区图片

4. 数学能力

在数学测试中，o3同样表现惊艳。在AIME 2024（数学测试基准）中得分96.7%，相当于在AMO美国数学奥林匹克竞赛上只答错1道题；在GPQA Diamond（博士级科学问题测试）中得分87.7%，甩开上一代o1接近10个百分点。

5. 图形逻辑推理能力

在ARC - AGI测试中（测试形式为图形逻辑推理，每轮举出3 - 5个例子，图形为1x1到30x30的网格图形，让AI根据图形变化规律预测下一个图形形式），o3微调成o3 low和o3 high两个模型。o3 low得分75.7%，符合公共排行榜成本要求，成为新榜单TOP1；o3 high得分87.5%，超越人类评估阈值（85），但训练成本大约是o3 low的172倍，超出1万美元成本要求。此前的ChatGPT各种型号在这项测试中的得分惨不忍睹，如GPT - 3为0%，GPT - 4为2%，GPT - 4o为5%，o1 - preview为21%，o1满血版为32%，o1 Pro为50%左右。

OpenAI砸碎了程序员的饭碗-AI.x社区图片

6. 高级数学推理能力

在FrontierMath测试（由Epoch AI推出，专门评估AI高级数学推理能力，地狱级难度，测试内容为最新未发表题目，经验丰富的人类数学专家解答也需数小时或数天，1998年菲尔兹奖得主Tim Gowers评价即使答对一个问题也远超现在能力范围）中，o3在不限制时间的情况下得分可达25.2%，而此前最强模型得分仅2%。

OpenAI砸碎了程序员的饭碗-AI.x社区图片