大家心心念念的 GPT-4.5 终于来了!
凌晨 4 点,OpenAI 开始了直播,奥特曼并没有现身。直播不到 15 分钟就匆匆结束了。
OpenAI 正式发布了其最大、最强的聊天模型 GPT‑4.5 研究预览版本。
奥特曼发推称,GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈,可以从模型那里得到真正好的建议。
OpenAI 表示,GPT-4.5 在扩展预训练和后训练方面向前迈出了一步。通过扩展无监督学习,GPT-4.5 提高了识别模式、建立联系和产生创造性见解的能力,而无需推理。这意味着,GPT-4.5 从一开始就不是一个推理模型。
OpenAI 的早期测试表明,与 GPT-4.5 的交互感觉更自然。它的知识库更广泛,更能遵循用户意图,而且「情商」更高,使得在提高写作、编程和解决实际问题等任务中非常有用。同时,GPT-4.5 还减少了幻觉出现。
Cognition 联合创始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的体验,表示非常棒。在他们的智能体编码基准测试中,GPT-4.5 相较于 o1 和 4o 实现大幅改进。同时发现一个有趣的数据点:虽然 GPT-4.5 和 Claude 3.7 Sonnet 在整体基准测试中得分相似,但他们发现 GPT-4.5 在涉及架构和跨系统交互的任务上峰值更大,而 Claude 3.7 Sonnet 在原始编码和代码编辑上峰值更大。
图源:https://x.com/ScottWu46/status/1895209597084017073
从今天开始,ChatGPT Pro 用户可以在网页版、手机版和桌面版使用 GPT-4.5。下周将向 Plus 和 Team 用户开放,再下周向企业和 Edu 用户开放。
现在,GPT-4.5 只支持搜索、上传文件和图片和画布功能,还不支持语音模式、视频和屏幕共享等多模态功能。OpenAI 表示,未来会持续更新,让产品变得更容易使用。
基准测试结果
OpenAI 首先在 SimpleQA(评估模型的事实性回答能力)数据集上进行了测试,其中 GPT-4.5 的准确率最高,超越了前代 GPT-4o、o1 和 o3-mini,展现了 GPT-4.5 拥有惊人的世界知识。
同时,GPT-4.5 的幻觉率也最低。
OpenAI 其次测试了人类协作训练水平。
随着模型不断扩展并解决更复杂的问题,教会它们更好地理解人类的需求和意图变得越来越重要。对于 GPT-4.5,OpenAI 开发了全新的可扩展技术,可以使用来自较小模型的数据来训练更大、更强的模型。这些技术提高了 GPT-4.5 的可操纵性、对细微差别的理解和自然对话水平。
下图人类偏好衡量结果显示,测试人员更喜欢 GPT-4.5 查询而不是 GPT-4o。
OpenAI 表示,将对世界的深刻理解与更佳的协作相结合,可以使得模型在更适合人类协作的「热情直观对话」中自然地整合想法。GPT-4.5 能够更好地理解人类的意思,并以更细致入微的「情商」来解读微妙的暗示或隐含的期望。此外,GPT-4.5 还表现出了更强的审美直觉和创造力,它擅长帮助写作和设计。
比如「在考试失败后,正在经历一段艰难的时光」,GPT-4.5 能够给你更拟人的安慰「哎呀,听到这个消息我真的很遗憾。考试失败会让人感到很艰难和沮丧,但请记住,这只是一个瞬间 —— 并不反映你的身份或能力。想谈谈发生了什么,还是你只是需要分散注意力?无论如何,我都在这里。」。
不过,OpenAI 指出 GPT-4.5 在做出反应之前不会思考,这使得它的优势与 o1 等推理模型截然不同。因此,与 o1、o3-mini 相比,GPT-4.5 是一种更通用、天然更智能的模型。
OpenAI 相信推理将成为未来模型的核心能力,而两种扩展方法 —— 预训练和推理 —— 将相辅相成。随着 GPT-4.5 等模型通过预训练变得更加智能和知识渊博,它们将成为推理和使用工具的代理的更强大的基础。
从下图多个基准测试结果,我们可以明显看到:在 GPQA(科学)、AIME’24(数学)、SWE-Bench Verfied(编码)等数据集上,GPT-4.5 全面领先于 GPT-4o,但仍然逊色于 o3-mini,尤其是数学和真实编程能力。
数字代表最佳内部性能
扩展无监督学习
OpenAI 通过扩展两种互补范式来提升 AI 能力:无监督学习和推理。
这两种范式代表了 AI 智能的两个轴向。
其中,扩展推理使模型在做出回应之前学会思考并产生思维链,从而能够解决复杂的 STEM(科学、技术、工程和数学)或逻辑问题。例如 OpenAI 的 o1 和 o3‑mini 模型就推动了这一范式的发展。
另一方面,无监督学习则提高了世界模型的准确性以及直觉能力。
GPT‑4.5 是通过扩大计算和数据规模以及架构和优化创新来扩大无监督学习的一个例子。其结果是一个知识面更广、对世界理解更深入的模型,从而在广泛的主题上减少了幻觉现象,提高了可靠性。
接下来,我们看看 GPT 在这几年当中范式的改变:
2018 年,当问 GPT-1「第一种语言是什么?」时,GPT-1 只能简单的重复问题,答案根本没有参考价值:
2019 年,GPT-2 能进行一些简短的回答:
GPT-3.5 的回答如下,但并不是最准确的答案:
GPT-4 显然比其他模型更聪明,但你会明显感觉到它想让你知道它有多聪明,只是在列出事实:
最后,我们看一下 GPT-4.5 的答案,可以看出 GPT-4.5 给出了一个很棒的回答。它清晰、简洁、连贯,而且还很有趣。
API 调用和价格
至于 API,所有付费用户现已可以选择聊天补全 API、助手 API 和批处理 API 来接入 GPT-4.5 模型,支持函数调用、结构化输出、流式传输和系统消息等主要功能,还支持图像输入。
测试显示,GPT-4.5 在写作辅助、沟通、学习、辅导和头脑风暴等需要高情商和创造力的应用场景特别有用。在多步骤编程和复杂任务自动化等方面也表现出色,看来 OpenAI 是持续押注智能体了。
GPT-4.5 体量很大,需要大量计算资源,所以 API 价格每 1M token 75 美元,比 GPT-4o 的 2.5 美元暴涨 30 倍。OpenAI 甚至在官方博客中表示:「因此,GPT-4.5 还无法完全替代 GPT-4o」
考虑到要在支持现有功能和开发未来的模型之间取得平衡,OpenAI 还在评估是否要长期在 API 中提供 GPT-4.5。
大家明显被 GPT‑4.5 的价格震惊到了,下面这张梗图说明了一切。
图源:https://x.com/airesearch12/status/1895215157623889991
OpenAI 已经放出了详细的 GPT-4.5 系统卡。
系统卡地址:https://cdn.openai.com/gpt-4-5-system-card.pdf
Scaling Law 还在生效
可能比我们期待得更久一些,曾是 OpenAI 和 Tesla AI 团队重要成员的 Andrej Karpathy 直接写了一篇「小作文」,表示期待 GPT-4.5 已经约两年了。
https://x.com/karpathy/status/1895213023238987854
「自从 GPT-4 发布以来,我一直渴望看到这种升级,因为它能从一个定性的角度来衡量扩大预训练计算规模所带来的进步(即大力出奇迹)。」
「每个版本号提升 0.5,大致对应预训练计算量增长了十倍。」Karpathy 回顾了 Scaling Law 从 GPT-1 到 GPT-4 逐渐生效的过程,虽然相比 GPT-3.5,GPT-4 的进步似乎有些微妙。
「一切似乎都只是在细微之处有所改进:措辞更具创意,对提示词的细微差别理解得更好,类比更合理,模型也更有趣,对罕见领域的知识和理解有所提升,幻觉现象减少了,整体感觉更好。这就像「水涨船高」,所有方面都提升了大约 20%。」
因此,带着这种预期,Karpathy 开始测试比 GPT-4 的预训练计算量增加了 10 倍的 GPT-4.5。在提前体验过 GPT4.5 时,他再次感受到了从 GPT-3.5 进化到 GPT-4 时那种震撼。
更令人兴奋的是,Karpathy 认为 GPT-4.5 依然展示了 Scaling Law 的独到之处,仅仅通过训练更大模型就能「免费」获得模型各方面能力的提升。
Karpathy 判断 OpenAI 接下来会基于 GPT-4.5 进一步通过强化学习进行训练,使其具备推理能力。「请注意,GPT-4.5 仅通过预训练、监督微调和 RLHF 进行了训练,因此它并不是一个推理模型。因此,在推理至关重要的场景中(如数学、编程等),GPT-4.5 的发布并没有推动模型能力的提升。」
Karpathy 更期望在非推理密集型任务(更多与情商相关,比如世界知识、创造力、类比能力、整体理解力、幽默感等等)中看到 GPT-4.5 的进步。为此,Karpathy 设计了 5 个好玩的提示词来测试。
大家如果感兴趣,可以去 Karpathy 评论区的轻量级模型竞技场上投票,看看 GPT-4.5 的情商是不是更精进了:
题目:创建一段 GPT-4.5 和 GPT-4 之间的对话,其中 GPT-4.5 以幽默和讽刺的方式嘲笑 GPT-4 的能力不足,GPT-4 则幽默地试图为自己辩护。
不过以「整顿」AI 圈出名的 Gary Marcus 并不看好 GPT -4.5,他表示 GPT-4.5 基本上是个无足轻重的研究。GPT-5 仍然是一个幻想。
更进一步的,Marcus 表示扩展数据和计算能力并不是一条好的物理定律,过去几年我们听到的关于 GPT-5 的那些夸大其词的说法:并不那么真实。
https://x.com/GaryMarcus/status/1895212523949113752