刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！

Aceryt

发布于 2024-9-13 10:35

2061浏览

0收藏

今天凌晨1点，OpenAI终于正式发布了传说中的“草莓”模型——o1。

除了名字不一样，功能、推理、性能等方面与之前泄漏的内容基本一致，o1的推理模式很特殊，在回答用户问题之前会进入拟人化思考模式，将问题分解成更小的步骤逐一解决，生成一个较长的内部思维链，回答的内容也更加准确。

这个技术谷歌DeepMind很早之前便进行过解读称为——训练时计算（Test-time computation）。其核心技术主要使用了密集型、流程导向的验证奖励模型搜索，以及自适应地更新模型对响应的概率分布两种方法。

根据OpenAI公布测试的数据显示，o1在美国数学奥林匹克预选赛中，排名美国前500 名学生之列，并且在物理、生物学、化学基准上，首次超过了人类博士。也就是说，o1超过了GPT-4o，是现役最强的超复杂推理大模型。

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！-AI.x社区

o1主要开发人员介绍该产品

已经使用上的用户表示，o1成功地写出了一首非常困难的藏头诗，以前的模型都无法写出来。它在生成答案的过程中疯狂反复推理、自我纠正，非常特别的推理模式。

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！-AI.x社区

已经尝试了o1 模型，进步非常大。推理能力更好，准确性和思维复杂性似乎也更好。

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！-AI.x社区

超过人类博士水平，这个结果太疯狂了！

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！-AI.x社区

期待已久的草莓模型终于来了。

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！-AI.x社区

太阳从西边出来了，这次居然没有候补名单？

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！-AI.x社区

感受一下AGI的震撼吧！

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！-AI.x社区

推理能力遥遥领先，这下能和Claude竞争了。

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！-AI.x社区

国际数学奥林匹克资格考试中，GPT-4o 只正确解决了 13% 的问题，而新模型的得分为 83%，编程竞赛中的表现更好，确实有点疯狂！

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！-AI.x社区

主要技术特点介绍

拟人化的推理模式是o1的主打功能之一，与传统模型不同，它在回答问题之前会进行深入的思考，生成一个较长的内部思维链。这种思维链的产生使得 o1 能够更好地理解问题的本质，分析问题的各个方面，从而给出更准确和合理的答案。

自适应强化学习、纠错则是其第二大技术特点，o1 通过大规模的强化学习算法进行训练，在训练过程中，模型学会了如何有效地利用其思维链来解决问题。

这种训练方法使得 o1 能够不断优化自己的策略，识别和纠正错误，学会将复杂的步骤分解为更简单的部分，并在当前方法不奏效时尝试不同的方法来解决。通过不断的学习和改进，o1 的推理能力得到了极大的提升，也就是说o1具备了智能体的功能。

o1使用了谷歌训练时计算类似的技术，OpenAI发现，随着训练时计算资源的增加和测试时思考时间的延长，o1 的性能会不断提升。这表明，通过增加计算资源的投入，可以进一步挖掘 o1 的潜力，使其在各种任务中表现得更加出色。

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！-AI.x社区

o1的其他主要特色应用功能包括，可以直接翻译一个不健全的句子，自动补全缺失内容；可根据提示自动编写复杂的视频小游戏；擅长解决超复杂、冗长的推理问题。

测试数据

OpenAI对o1进行了一系列的测试，以评估其在不同领域的性能。在竞争编程问题方面，o1 在 Codeforces 编程竞赛上的表现非常出色，超过83%的专业人员。

在数学竞赛中，以 AIME 2024 为例，GPT - 4o 平均只能解决 12% 的问题，而 o1 平均能解决74% 的问题，若采用 64 个样本的共识，解决率能达到83%。

使用学习到的评分函数重新排序 1000 个样本时，解决率更是高达 93%。这样的成绩使 o1 在该考试中的得分能够跻身美国前 500 名学生的行列，超过了美国数学奥林匹克的入选分数线。

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！-AI.x社区

在 PhD - Level Science Questions（GPQA Diamond）的测试中，o1 也展现出了优异的性能，超过了人类专家的表现。为了进行这项测试，研究人员招募了具有博士学位的专家来回答 GPQA - diamond 问题，结果发现 o1 的表现更为准确。

此外，o1 在 ML Benchmarks 的多个子类别中也有显著的改进。例如，在 MATH - 500、MathVista、MMMU、MMLU 等测试中，o1 的准确率均高于 GPT - 4o。

在其他考试方面，o1 在 APEnglish Lang、APEnglish Lit、APPhysics2、AP Calculus、AP Chemistry、LSAT、SATEBRW、SATMath 等考试中的成绩也显示出了巨大优势，整体比GPT-4o高出很多。

值得一提的是，这一次OpenAI没有再放鸽子，ChatGPT Plush和team用户已经可以使用该模型，同时开放了API，想体验的小伙伴们赶紧去试试吧！

本文转自AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/MXKXSCxkgKAqqq7B26MqXA

标签

ChatGPT

OpenAI

相关推荐

OpenAI发布突破性AI模型o1系列，推理能力大幅跃升重塑行业格局

芝士AI吃鱼 • 2184浏览 • 0回复
OpenAI 发布新模型 o1，能够推理复杂任务，在科学、编程和数学等领域更牛

AI洞察Insight • 2003浏览 • 0回复
OpenAI o1模型推理能力大幅提升的背后：重复采样如何提升AI推理能力

Syrupup • 3066浏览 • 0回复
OpenAI o1很强，也能被玩坏！

PaperAgent • 1995浏览 • 0回复
OpenAI发布新模型：o1系列模型，更像理科生的模型

大语言模型论文跟踪 • 3605浏览 • 0回复
OpenAI o1引发的思维链思考：思维链提示启发大模型推理

angel • 3039浏览 • 0回复
使用 OpenAI o1 的五种方法「详细指南」

51CTO技术栈 • 4919浏览 • 0回复
OpenAI o1推理模型基础入门

51CTO内容精选 • 1969浏览 • 0回复
被神化的o1模型，规划能力到底如何？

大语言模型论文跟踪 • 2432浏览 • 0回复
草莓OpenAI o1的规划能力怎么样？泰斗Subbarao Kambhampati给你答案！

AIGC最前线 • 2205浏览 • 0回复
OpenAI o1：用内部思维链进行复杂推理

shizhi02 • 2117浏览 • 0回复
o1的规划能力如何？LRM是未来吗？

探索AGI • 1540浏览 • 0回复
阿里发布类o1模型QWQ，可自我反思纠错，实测数学推理远超o1、DS-R1，人人免费

51CTO技术栈 • 2260浏览 • 0回复
OpenAI满血o1深夜炸场！10秒搞定博士级难题！奥特曼重申：AI没有墙！

51CTO技术栈 • 1818浏览 • 0回复
OpenAI o1 模型到来后，谈谈提示词工程的未来

Baihai_IDP • 1730浏览 • 0回复
Kimi深夜炸场：满血版多模态o1级推理模型！OpenAI外全球首次！Jim Fan：同天两款国产o1绝对不是巧合！

51CTO技术栈 • 1446浏览 • 0回复
DeepSeek R1 Vs OpenAI o1！全球顶级推理模型训练技术对比大解密！

51CTO技术栈 • 4172浏览 • 0回复
o1模型医学推理惊人，超过人类医生

Aceryt • 1323浏览 • 0回复
刚刚，o4-mini发布！OpenAI史上最强、最智能模型

Aceryt • 127浏览 • 0回复

Aceryt

LV.7

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

193

帖子

1691

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！

o1主要开发人员介绍该产品

主要技术特点介绍

测试数据

目录

51CTO

51CTO博客

51CTO学堂

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！

o1主要开发人员介绍该产品

主要技术特点介绍​

测试数据

目录

主要技术特点介绍