鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

六个问题带你看懂什么是理工科学霸-OpenAI o1！

发布于 2024-9-13 11:39

1907浏览

0收藏

这篇主要会回答下面的问题（too long，don't read）：

什么是OpenAI o1？——一个擅长数学物理化学生物编程等问题的理科学霸大模型
OpenAI o1最大的技术特征是什么？——RL训练和推理，在传统COT之外隐藏了一个很长的内在COT，满足scaling law
OpenAI o1到底有多强？——断崖碾压GPT4-o，达到人类竞赛选手，以及博士生水平。
人们更喜欢GPT4-o还是OpenAI o1?——文科方面o1没有优势，理工科方面碾压GPT4-o
OpenAI o1的安全性怎么样？—— 相比4o优势明显，更容易教会模型人类价值观和原则
OpenAI o1为什么要向用户隐藏内在思维过程？——为了安全性和用户体验（不想让大家蒸馏它的内在思维过程作为训练数据）

知乎：https://zhuanlan.zhihu.com/p/7198595001.

PS：“9.11和9.8谁大”的这个问题OpenAI o1依然存在问题！！！OpenAI o1模型是否被过誉，让子弹再飞一会！

什么是OpenAI o1？

OpenAI o1（后面简称o1）是OpenAI在2024.9.12号发布的最新大模型，主要针对的任务是复杂任务推理，比如竞赛难度的编程问题，奥赛难度的数学问题等。

参考OpenAI原始介绍: https://openai.com/index/learning-to-reason-with-llms/

OpenAI o1最大的技术特征是什么？

在训练阶段，会通过强化学习，让o1完善其思维链并优化所使用的策略。例如：识别并纠正错误，将复杂步骤拆分为简单步骤，当前方法不work时，换一种方法

在推理阶段，模型同样会在呈现给用户的cot之外，做一个更深的的所谓的long internal chain of thought，所以推理时间会更长，相当于COT套娃了，给COT再加一个COT（猜测是把MCTS搜索过程序列化了，case放在文末）。

六个问题带你看懂什么是理工科学霸-OpenAI o1！-AI.x社区

值得注意的是，这次OpenAI依然主打了他们一直信奉的Scaling Law，在训练和测试时的时间都能和性能形成对数线性关系。

OpenAI o1到底有多强？

效果不用多说了，跟GPT4-o已经是断崖式差距了，在最难的数学，code，物理化学生物等benchmark上遥遥领先。

在全美高中生数学竞赛AIME上，o1能达到74分（GPT4-o仅有12分），如果采样1000次，结合reward model加权投票能到93分，能排进全国前500名，超过USA Mathematical Olympiad的晋级分数线；
在GPQA，一个关于物理，化学和生物的智力测试上，OpenAI招募了一群相关领域有博士学位的专家和o1同台竞技， o1能够在GPQA-diamond questions.上超过这群专家。
在视觉感知能力后方面，o1 在 MMMU 上取得了 78.2% 的分数，成为第一个与人类专家媲美的模型。

六个问题带你看懂什么是理工科学霸-OpenAI o1！-AI.x社区

值得注意的是，OpenAI在o1的基础上加强了模型的代码能力，以o1为初始化又训了一个o1-IOI，用于参加2024年的国际奥林匹克信息竞赛（2024 International Olympiad in Informatics），在和人类选手相同的条件下，在10h内解决6道非常难的竞赛问题，每个问题最多允许提交50次。最终，o1-IOI能获得一个216分的分数，在放开提交次数后，o1-IOI能获得362.14，超过了金牌线。这种和人类顶尖选手同台竞技，才是最能反映模型能力的benchmark吧。在CodeForce上，打出了惊人的1807分。

六个问题带你看懂什么是理工科学霸-OpenAI o1！-AI.x社区

人们更喜欢GPT4-o还是OpenAI-o1?

OpenAI测试了在不同领域的问答上，用GPT4-o和o1匿名回答，大家投票，结果显示，o1只是在理工科方面显著高于4o，比如编程，数据分析和数学题，但是在写作和文本编辑方面和4o相差无几，看起来o1确实是一个偏科的理工科选手。

六个问题带你看懂什么是理工科学霸-OpenAI o1！-AI.x社区

OpenAI o1的安全性怎么样？

将模型需要遵循的准则融入内在COT中，可以高效且稳健鲁棒地教会模型人类偏好的价值和需要遵循的原则，不管是OpenAI内部的安全benchmark还是外部公开的benchmark，o1都能达到极高的水平。更具体的好处有两点:

可以让我们(不是，是OpenAI，我们看不到)更清晰地看到模型内在的思维过程；
o1关于安全规则的模型推理对于分布外场景（OOD）更加稳健.

六个问题带你看懂什么是理工科学霸-OpenAI o1！-AI.x社区

OpenAI o1为什么要对用户隐藏internal COT？

翻译了一下OpenAI的原话，主要是为了用户体验和安全问题：

“我们认为隐藏的思维链为监控模型提供了独特的机会。如果思维链忠实且易于理解，它允许我们“读懂”模型的内心并理解其思维过程。例如，将来我们可能希望监控思维链，以识别是否存在操纵用户的迹象。然而，为了实现这一点，模型必须能够以未经过滤的形式表达其想法，因此我们不能将任何政策合规性或用户偏好嵌入到思维链中。同时，我们也不希望让不对齐的思维链直接展示给用户。因此，在权衡用户体验、竞争优势以及追求思维链监控的选项后，我们决定不向用户展示原始的思维链。我们承认这一决定存在缺点。我们努力通过教模型在回答中重现思维链中的有用观点部分来弥补这一不足。对于o1模型系列，我们展示了模型生成的思维链摘要。”

但是实际上，我认为主要是不想让大家蒸馏它的内在思维过程作为训练数据。

一些关于内在思维链的Cases

都太长了，展示不下，知道最重要的一点就行：内在思维链比思维链长的长的多。

编程题目

Write a bash script that takes a matrix represented as a string with format '[1,2],[3,4],[5,6]' and prints the transpose in the same format.

思维链

六个问题带你看懂什么是理工科学霸-OpenAI o1！-AI.x社区

内在思维链

六个问题带你看懂什么是理工科学霸-OpenAI o1！-AI.x社区

最后说一点

虽然OpenAI的o1从各方面来看很强，但对于“9.11和9.8谁大”的这个问题，依然回答存在错误。

六个问题带你看懂什么是理工科学霸-OpenAI o1！-AI.x社区

可能是tokenizer的问题，不过现在还不确定，在 platform.openai.com/tokenizer 上还看不到。

六个问题带你看懂什么是理工科学霸-OpenAI o1！-AI.x社区

让子弹在飞一会哈。

六个问题带你看懂什么是理工科学霸-OpenAI o1！-AI.x社区

本文转载自 NLP工作站，作者：白苏苏

标签

赞

收藏

回复

举报

回复

相关推荐

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！

Aceryt • 1572浏览 • 0回复
OpenAI 发布新模型 o1，能够推理复杂任务，在科学、编程和数学等领域更牛

AI洞察Insight • 1470浏览 • 0回复
OpenAI o1很强，也能被玩坏！

PaperAgent • 1504浏览 • 0回复
OpenAI发布新模型：o1系列模型，更像理科生的模型

大语言模型论文跟踪 • 3016浏览 • 0回复
使用 OpenAI o1 的五种方法「详细指南」

51CTO技术栈 • 4279浏览 • 0回复
国内大模型厂商是如何看待突然的OpenAI o1？跟不跟是个问题！

Syrupup • 1494浏览 • 0回复
OpenAI o1推理模型基础入门

51CTO内容精选 • 1517浏览 • 0回复
草莓OpenAI o1的规划能力怎么样？泰斗Subbarao Kambhampati给你答案！

AIGC最前线 • 1741浏览 • 0回复
开源社区离Openai o1越来越近~

NLP前沿1 • 1534浏览 • 0回复
OpenAI o1：用内部思维链进行复杂推理

shizhi02 • 1676浏览 • 0回复
327个样本打破常规，这个"OpenAI o1复制之旅"有点燃 | RAG系统迎来重大突破！

sbf_2000 • 1422浏览 • 0回复
o1的规划能力如何？LRM是未来吗？

探索AGI • 1107浏览 • 0回复
OpenAI o1 模型到来后，谈谈提示词工程的未来

Baihai_IDP • 1265浏览 • 0回复
Kimi深夜炸场：满血版多模态o1级推理模型！OpenAI外全球首次！Jim Fan：同天两款国产o1绝对不是巧合！

51CTO技术栈 • 981浏览 • 0回复
DeepSeek R1横空出世，超越OpenAI o1，教你用Ollama跑起来

小虎哦哦 • 1.3w浏览 • 0回复
DeepSeek R1 Vs OpenAI o1！全球顶级推理模型训练技术对比大解密！

51CTO技术栈 • 3450浏览 • 0回复
Vision-R1：多模态领域的DeepSeek R1-Zero，7B参数比肩OpenAI O1

Syrupup • 783浏览 • 0回复
理解什么是AI Agent，看懂这篇就够了

AIGC新知 • 933浏览 • 0回复
理解什么是推理模型，看懂这篇就够了

AIGC新知 • 677浏览 • 0回复

LV.3

AIGC前沿知识分享&落地经验总结

觉得TA不错？点个关注精彩不错过

40

帖子

343

声望

0

粉丝

关注

最近发布

Gemini2.5 Pro测试，代码能力飙升，但多模态表格解析依旧不理想 1天前发布
文心一言4.5和X1免费，马上安排实测，来看看效果如何！ 2025-03-17 01:11:39发布

热门推荐

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

解锁Transformer核心！一文吃透自注意力机制 0回复

五分钟读懂Manus平替：深度解析OpenManus 如何重新定义Multi Agent? 0回复

上一篇：如何获取高质量数据进行代码指令调优？

下一篇： Qwen2.5系列模型开源，你值得拥有！！！

社区精华内容

目录

什么是OpenAI o1？
OpenAI o1最大的技术特征是什么？
OpenAI o1到底有多强？
人们更喜欢GPT4-o还是OpenAI-o1?
OpenAI o1的安全性怎么样？
OpenAI o1为什么要对用户隐藏internal COT？
一些关于内在思维链的Cases
最后说一点

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载