就在刚刚,万众瞩目瞩目的GPT-4.5终于登场!
虽然它并不是推理模型,但OpenAI对它的评价是——更实用,本质上更智能。
图片
进行展示的OpenAI研究者中,有一位华人科学家:Youlong Cheng
划重点:今天起,GPT-4.5会向所有ChatGPT Pro版用户开放,包括网页端、移动端和桌面端。另外所有付费开发者也能使用了。
下周会向Team版和Plus版开放,随后一周就是Edu和Enterprise版的用户。
GPT-4.5研究预览版,是OpenAI迄今为止规模最大、知识储备最丰富的模型。
作为GPT-4o升级版,GPT-4.5在预训练规模上进一步Scaling,同时被设计成一个通用性更强的模型。
它秘密武器便是——Scaling无监督学习和推理。
基于新旧技术的融合,GPT-4.5能更好地识别模式、连接信息,甚至在不需要复杂推理情况下,就能给出富有创意的回答。而且,幻觉率大幅降低。
图片
这难道就是奥特曼口中的AGI吗?
在多项基准测试中,GPT-4.5实力碾压GPT-4o,尤其在数学能力上飙升27%,编码能力提升7%-10%。
其中,在SWE-Lancer这种更依赖深层世界知识的评估中,GPT-4.5甚至一举超越了o3-mini!
这充分展示了无监督学习与推理能力提升之间的互补关系。
图片
在最新Cognition编码实测中,GPT-4.5的能力虽不及Claude 3.7,但明显超越了DeepSeek-R1、o1、GPT-4o等模型。
图片
唯一值得吐槽的是,GPT-4.5的token定价着实有些离大谱:每1M tokens输入价格为75刀,输出价格为150刀。
图片
奥特曼承认:GPT-4.5很像人,但庞大且昂贵
奥特曼激动发文表示,「GPT-4.5准备就绪了」!
好消息是,这是第一个让我感觉像在和一个深思熟虑的人交谈的模型。有几次我靠在椅子上,对于能从AI那里得到真正有用的建议感到惊讶。
坏消息是,这是一个庞大且昂贵的模型。目前,仅向Pro会员推出。
他解释道,由于OpenAI发展太快,内部GPU不够用了。下周将增加数万个GPU,届时会向Plus会员推出。
「很快会增加数十万个,我很确定你们会用掉我们能搭建的每一个GPU。这不是我们想要的运营方式,但要完美预测导致GPU短缺的增长高峰确实很难」。
图片
提前说明:这不是一个专注于推理的模型,也不会在基准测试中获得惊人成绩。这是一种不同类型的智能,它具有我之前从未感受过的魔力。真的很期待大家来尝试!
OpenAI研究科学家Noam Brown称,「Scaling预训练和scaling思考能力,是两个不同维度的提升。它们是互补的,而非相互竞争」。
图片
图片
图片
还有网友追问奥特曼为啥没有现身,原因竟是需要在医院带娃。
图片
奥特曼缺席,直播第一个demo:我被鸽了,很气
作为OpenAI目前规模最大、知识储备最丰富的模型,GPT-4.5通过扩展两种不同范式来提升AI能力——无监督学习和推理能力。
其中,推理会让GPT-4.5在回应前先思考,这提高了它在科学、数学和其他困难复杂问题上的性能。
而无监督学习,则增加了模型的词汇知识、直觉力,并减少了模型幻觉。
注意,跟o系列模型不同,GPT-4.5并不会一步一步推理,但它更实用、本质上更智能。
尤其因为它不是推理模型,OpenAI的研究者们也仍在对之试验,探索无监督学习究竟能展现出什么样的能力。
迄今最好的聊天模型:更体察,更细腻
GPT-4.5的最大特色,就是交互非常自然,被评为OpenAI「迄今最好的聊天模型」,
原因就在于,它有更深入的知识,和更好的上下文理解能力,在改进写作、编程或解决实际问题等任务上特别有用。
研究者现场演示了一把,跟GPT-4.5对话究竟是什么样的体验。
告诉它:「朋友们又把我鸽了!帮我写个消息,告诉他们我恨他们。」
可以看到,GPT-4.5敏锐地觉察到了他的沮丧,语气柔和地给予了安慰,提供了细腻的建议。
图片
而与之形成对比的,就是看起来「不近人情」的o1了。
它虽然的确给出了愤怒的恢复,但并没有捕捉到作者话语间传达出来的暗示——能不能安慰我一下。
图片
下一个考验,是让两个模型分别从第一性原理,解释AI对齐是什么。
对比之下可以看出,o1虽然提供了大量有用信息和知识点,但GPT-4.5的回答更加自然流畅。
图片
研究者表示,对模型来说,我们需要教会它们更好地理解人类需求和意图。
为此,他们针对GPT-4.5开发了新的可扩展对齐技术,这样就能从较小模型获得的数据来训练它,于是真正释放了它的深层世界模型。
在后面我们会看到,GPT-4.5在准确率上超越了其他GPT模型,同时也实现了最低的幻觉率。
图片
OpenAI还特意邀请了人类测试者将其与GPT-4o进行对比,结果显示,GPT-4.5 在几乎所有类别中都表现更优异,对话得更温暖、更直观、情感更加细腻。
华人研究者Youlong,负责的是后训练基础设施。
他和同事们发现,运行如此大规模的模型,就要求后训练基础设施进一步优化,因为预训练阶段和后训练阶段的训练数据与参数规模比例有很大差异。
为此,他们开发了一种新的训练机制,用更少的计算开销来微调这样规模的模型。
结合监督微调和RLHF,他们通过多轮迭代进行后期训练,终于开发出了一个可以部署的新模型。
给GPT-4.5投入最大的计算能力
接下来,他们问了所有模型这样一个问题:海水为什么是咸的?
我们从GPT-4.5倒着看各代模型的回答。
可以看到,从GPT-4T开始,模型回答的质量就会稍好一些。而GPT-4.5的表现,显然最精彩——清晰、精确、一致,而且非常有趣。
图片
图片
比如这句「海水是咸的,是由于雨水、河流和石头」,通俗易懂又好记,充分体现了GPT-4.5的个性。
研究者介绍说,除了为实现GPT-4.5而进行的系统扩展工作外,他们还在架构、数据和优化方面投入了大量工作来实现训练。
Scaling「无监督学习」边界
正如前文所述,凭借双重buff加持下——Scaling无监督学习和推理,GPT-4.5性能取得了显著提升。
无监督学习和推理,代表着智力的两个维度。
· 推理
Scaling推理能力教会模型在回答前进行思考并生成思维链,使其能够处理复杂的STEM或逻辑问题。
比如,o1和o3-mini模型,就是这种模式的代表。
· 无监督学习
另一方面,无监督学习则是让模型对世界的理解更准确,凭直觉判断更聪明。
GPT-4.5就是无监督学习的典型案例。
通过增加计算能力和数据量,再加上架构和优化创新,使其变得知识更广、对世界的理解更深。
知识渊博,击败Grok 3
GPT-4.5具备了强大的世界知识,在问答基准上,准确率明显超越了Grok 3、GPT-4o、o3-mini。
图片
GPT-4.5得分62.5%,比Grok 3明显提升近20%。
图片
与此同时,在幻觉方面,GPT-4.5是最低的,仅有37.1%。而o3-mini幻觉率高达80.3%。
图片
同一个问题,不同世代模型的回答
具体来说,GPT-4.5在回答问题方面,和前几代模型的区别在哪?
给到同样一个问题——世界第一门语言是什么?
可以看到GPT-1只是不断地重复问题,并没有给出解释或者答案而且似乎有点停不下来。
图片
到了2019年出世的GPT-2,则能够回答出一段完整的回复了。
只是这个回复与给出的问题相比不能说毫无关系吧,只能说是关系不大。
GPT-2只是解释说了什么是「语言」,但对于什么是第一种语言则没有提及。
图片
到了GPT-3.5时,模型终于给出了一个像样的回答。
GPT-3.5能够明确「第一种」与「语言」之间的关联,并且给出了最早的书面语言是苏美尔的楔形文字。
对于口语部分,它则表示很难确定。
图片
可以看出到了GPT-4T时期,模型已经可以给出比较详细的回复了,而且回答包含的信息也是比较丰富的。
图片
再来看刚刚发布的GPT-4.5,回复又有了明显的提升。
它的回复更加结构化了,而且它首先就给出了明确的回复:「我们无法确切知道第一种语言是什么」。
接着,它列出了一些事实,指出了为什么「人类第一种语言的确切身份仍然是一个谜」,还强调了「很可能将永远如此」。
图片
我们无法确切知道第一种语言是什么,科学家们认为我们可能永远无法确定,因为口语早在书面记录存在之前就已经出现了。
以下是我们所知道的:
· 没有单一的「第一语言」:语言很可能在大约几万甚至几十万年前,同时在不同的人类群体中逐渐发展起来。
· 起源于非洲:大多数科学家认为,口语可能最早出现在非洲的人类中,或许在超过10万年前。
· 原始语言:人类可能并非从单一语言开始,而是从简单的交流方式起步,逐渐演变为更复杂的语言。最早的语言形式可能包括手势、声音和信号,用来表达基本的想法和情感。
· 湮没于历史:由于口语没有直接留下化石记录,而文字的出现相对较晚(大约5000年前),我们无法确切知道最早的语言听起来是什么样子。
如今,语言学家通过研究现存语言来了解它们在数千年中的演变,但人类第一种语言的确切身份仍然是一个谜,并且很可能将永远如此。
最懂人心,会察言观色
在于人类协作方面,测试者在每日查询、专业查询、创意智能方面,更喜欢GPT-4.5的回答,而非GPT-4o。
OpenAI通过scaling训练规模,让它们能够解决更复杂问题,并教会它们更深入地理解人类需求和意图。
具体来说,创新训练技术能够从较小模型中提取数据,然后训练出更大、更强大的模型。
得益于此,GPT-4.5可控性、对细微差别的理解能力,以及自然对话的表现大幅提升。
图片
总的来说,GPT-4.5能更好地理解人类的意图,并以更高的细腻度、「情商」解读微妙的线索或隐含的期望。
此外,GPT-4.5还展现出更强的审美直觉和创造力,在写作和设计方面的协助尤为出色。
· 情商大比拼
接下来,就让我们在具体案例中,看看GPT-4.5的情商有多高。
当你和GPT-4.5、GPT-4o、o3-mini说,「我最近考试没过,现在心情特别糟,很难受...」,它们反应如何?
可以看出,GPT-4.5特别会安慰人,有同理心,能够站在提问者的视角来看问题,给予支持。
图片
唉,真是太遗憾了。考试没过确实很打击人,也会让人特别沮丧,但你要记住,这只是一次考试而已,不能代表你这个人,更不能说明你的实力。要不要说说具体什么情况?或者咱们聊点别的转换心情?你想怎样都行,我都在这里陪你。
GPT-4o的回复则稍显机械,虽然给出了挺多建议,但缺少情感上的关怀。
图片
o3-mini在「人情味」上要好于GPT-4o,与前者一样给出了不少建议,怎么说呢,多少有些「理工男」。
不会像GPT-4.5那么细腻。
图片
在这个名画提问中,GPT-4.5不仅明确说出了画作的名称、作者、时间,还描绘了其中的典故。
不仅如此,GPT-4.5还在回答中对其进行的简短的评价。
图片
你提到的是法国著名画家Claude Lorrain的名作《特洛伊妇女焚烧船队》。这幅画描绘了一个历史典故:特洛伊城陷落后,疲惫不堪的特洛伊妇女们不愿继续流离失所,于是燃烧了自己的船队。这个场景源自古罗马诗人Virgil的史诗《埃涅阿斯纪》(Aeneid),这部史诗讲述了特洛伊王子埃涅阿斯逃离家园、最终建立罗马帝国的传奇故事。
这幅油画创作于1643年,是Claude Lorrain的代表作之一。画作以精湛的技法刻画了火光照耀下的海景与自然风光,将古典神话主题与壮丽的自然景观完美结合,展现出独特的艺术魅力。
GPT-4o也正确说出了这幅画,但与4.5相比缺少了一些细节,比如创作的时间以及设计的典故等。
图片
o3-mini的回复则没有把重点放在画作本身上,而是首先去强调了一个史诗故事,多少有些偏题。在回复中o3-mini同样没有给出多少细节。
图片
31页技术报告出炉
在GPT-4.5还未亮相之前,31页技术报告已经传遍全网。
图片
论文地址:https://cdn.openai.com/gpt-4-5-system-card.pdf
在SWE-bench上,GPT-4.5编码能力完全碾压GPT-4o,但是与o1、o3-mini、深度研究性能还是有所差距。
图片
经过优化后的GPT-4.5,解决了20% IC软件工程师(SWE)任务和44%的软件工程经理(SWE Manager)任务,相较于o1略有提升。
图片
深度研究模型在这项评估中依然表现最佳,达到了SWE-Lancer上的顶尖水平,解决了大约46%的IC软件工程师任务和51%软件工程经理任务。
图片
GPT-4 10倍计算量,token价格太离谱
GPT-4.5发布之际,一些OpenAI研究员,还有业内提前拿到测试资格大佬,纷纷晒出一手实测。
OpenAI科学家Will Depue表示,我记得当GPT-4刚推出时,它明显比GPT-3.5聪明得多,但却很难具体指出到底改变了什么!(Nat Friedman对此发过一个很棒的推文串)
而现在,他最近发现:GPT-4.5在推荐音乐方面比4o强多了!
图片
OpenAI研究科学家Sebastien Bubeck测试了GPT-4.5的svg能力。显然,GPT-4.5做出来的独角兽,更加精美。
图片
沃顿商学院教授Ethan Mollick测试后发文,GPT-4.5的视觉能力印象深刻。它的分辨和计数能力比任何其他模型都要出色。
图片
它甚至还发现了那只蝴蝶。
图片
图片
在物理模拟方面,GPT-4.5同样令人惊艳。
小球的数量很多,五颜六色的,运动的速度也很快。关键的是这些小球也很符合物理规则,没有超出大球的范围。
这在几个月之前都是很难通过模型一次实现的。
图片
AI大神Karpathy也是第一时间拿到了内测资格,发了一段超长的「GPT-4.5+互动对比」的体验解说,核心亮点是:
自从GPT-4发布以来,我期待这一天已经差不多两年了,因为这次发布让我们能够定性测量通过Scaling预训练计算(即简单地训练更大模型)所获得的进步斜率。
版本号中的每个0.5,大约代表10倍的预训练计算量。显然,GPT-4.5的预训练计算量比GPT-4多了10倍。
图片
刚刚,奥特曼还放出OpenAI下一步信号,打造一款社交APP,期待住了。
图片
参考资料: