怕被对手蒸馏,OpenAI只敢公开“阉割版”思维链!网友失望:错误的摘要还不如没有!OpenAI员工挽尊:推理混乱但结果对了

原创
人工智能
OpenAI 发言人在接受采访时表示:“我们正在为 o3-mini 引入更新后的 [思维链],让用户更容易理解模型的思考方式。通过这次更新,用户可以更清晰地跟随模型的推理过程,从而对其回答更有信心。”

编辑 | 伊风

OpenAI又Open了一点点!

奥特曼预告的o3 "one-more-thing"来了!

图片图片

OpenAI突然更新了免费和付费用户的o3-mini思维链。在这一更新之后,我们终于能看看模型的推理步骤以及它如何得出答案的过程了!

同时,据 OpenAI 介绍,使用 o3-mini 并选择“高推理”模式的高级 ChatGPT 订阅用户也将看到这一改进后的推理显示。

OpenAI在推文中还给了一个例子,用户问ChatGPT“今天为啥不是周五呢?”o3思考了一下,甚至还用了个😅的emoji,“我也很惊讶今天不是周五,我猜,当你准备好过周末时时间的流速就变慢了吧”。

图片图片

OpenAI 发言人在接受采访时表示:“我们正在为 o3-mini 引入更新后的 [思维链],让用户更容易理解模型的思考方式。通过这次更新,用户可以更清晰地跟随模型的推理过程,从而对其回答更有信心。”

看到OpenAI的新动向,评论区纷纷惊呼:DeepSeek效应无敌了,让我们一起说谢谢!

图片图片

但是……也不能高兴得太早!网友很快就发现了其中的蹊跷——现在o3-mini展示的思维链居然是“阉割版”。

OpenAI评论区第一热评就是:你给的这是原始思维链吗?

图片图片

一位网友回复道,我几乎可以肯定不是,它只是被小模型复述的摘要版 CoT。

图片图片

连奥特曼都直接承认了,现在的 CoT是经过“整理”的,更好读(手动狗头)。并且也会针对用户语言进行翻译。

图片图片

许多网友表示大失所望。o3-mini "one-more-thing"就是这?不如DeepSeek免费看完整推理。

图片图片

而且,再做一次摘要其实很容易出bug。

例如这位网友,就看到了疑似o3-mini原始思维链以及摘要代码……真的很尴尬啊!

图片图片

所以,为啥OpenAI不能大大方方的展示完整思维链呢?

1.OpenAI为啥不公开原始思维链?

真相只有一个:怕被蒸馏。

在上周的 Reddit AMA(在线问答)中,OpenAI 首席产品官 Kevin Weil 透露说:

“我们正在努力展示比现在更多的内容——[展示模型的思维过程] 很快就会实现。具体方案尚未确定——完整展示思维链可能会导致竞争对手进行知识蒸馏(competitive distillation),但我们也知道用户(至少是高阶用户)希望看到完整的推理过程,所以我们会找到合适的平衡点。”

因此,“抠抠搜搜”的OpenAI找到了一个折中的方案:o3-mini 先进行推理,然后将思维整理成摘要。

OpenAI 发言人在接受采访时补充了思维链的“整理”细节:“为了提升清晰度和安全性,我们新增了一个后处理步骤,模型会复查原始思维链,移除任何不安全内容,并简化复杂的概念。此外,该后处理步骤还能让非英语用户以其母语获取思维链,使体验更加友好和易于理解。”

当然,OpenAI的担心不无道理。优质的思维链数据构造出的数据集,使得复刻模型推理能力变得简单且成本低廉。昨天,我们刚刚报道过李飞飞团队,利用1000个问题及其答案,记录了Gemini 2.0 Flash Thinking Experimental的“思考过程”数据,以此构建的训练集对开源小模型进行微调,性能可媲美o1mini。详见:不到140块!李飞飞团队超低成本复刻DeepSeek R1推理!16张H100只训练了26分钟,与R1训练方法不同!

问题是,OpenAI很难找到防止蒸馏与保障用户体验的“平衡点”,反而会闹出乌龙。

讽刺的是,此前o3-mini被发现使用中文做推理。被网友怀疑o3是不是蒸馏过DeepSeek,或使用了部分代码/数据。

图片图片

2.o3思维链一手实测:错误的摘要可能比“黑箱”更糟糕

OpenAI的员工 Noam  Brown发推,用井字棋问题测试o3-mini。

他称赞说,“o3-mini 是首个稳定答对这个井字棋问题的大型语言模型(LLM)。”但也直言了o3-mini的大缺陷:“总结后的思维链(CoT)看起来有些混乱,但你可以看到,在右侧的最终推理过程中,模型还是找到了正确答案。”

图片图片

图片图片

图片图片

问题是,用户本来就依赖推理过程,来判断结果是否是值得信任的。

在混乱的推理过程后,用户该如何理解模型得出的“正确答案”呢?就像一位网友所说的:我担心总结后的思维链实际上比什么都没有更加糟糕。

图片图片

另外,小编好奇o3-mini是不是真的是首个能稳定回答井字棋问题的模型。于是用Noam  Brown的prompt丢给了DeepSeek。

因为模型思考这个问题会遍历所有的可能,再加上模型自己会做检查,一度我看着AI不断地输出推理,怀疑它是否已经陷入了循环。大家也可以从右侧滑块感受这篇推理到底有多长。

图片图片

最终,DeepSeek拿下了正确答案,而且,它全部的推理过程都是可查的!

图片图片

而如此篇幅的推理过程,很难被形成一个正确的摘要。这就是o3出现混乱的原因。

3.写在最后:前CTO的创业公司或成为OpenAI新对手

OpenAI试图获取的平衡,正暴露了这家公司陷入了一个两难的困境中。

值得注意的是,在Anthropic之后,又一家OpenAI“原版人马”的创业公司要和其打擂台了。

那就是OpenAI前CTOMira Murati 低调创立的新创业公司!

据《财富》报道,OpenAI 联合创始人 John Schulman 本周早些时候从 AI 公司 Anthropic 离职,将跳槽到Mira的新公司。值得注意的是,John Schulman才刚刚加入Anthropic五个月。

自去年 9 月离开 OpenAI 以来,Mira对新公司的情况守口如瓶。不过,据知情人士透露,Murati 已招募了多名前 OpenAI 员工,其中包括曾在 OpenAI 超算团队工作的 Christian Gibson。

所以,OpenAI的人才动荡估计又要持续一阵了。

参考链接:

1.https://techcrunch.com/2025/02/06/report-openais-ex-cto-mira-murati-has-recruited-openai-co-founder-john-schulman/

2.https://techcrunch.com/2025/02/06/openai-now-reveals-more-of-its-o3-mini-models-thought-process/

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2025-02-07 09:05:36

2023-02-01 13:37:59

ChatGPTAI

2025-01-20 15:22:55

2023-01-15 13:52:18

AIChatGPT

2024-07-15 00:15:00

OpenAI人工智能AI安全风险

2024-01-29 00:05:00

OpenAI嵌入机器学习

2023-06-04 13:29:24

OpenAI员工UC

2025-01-20 07:30:00

OpenAIGPT-5模型

2023-11-18 09:09:44

OpenAI微软

2024-06-07 16:40:53

2023-03-31 15:12:33

ChatGPTOpenAI谷歌

2024-02-21 15:05:30

2024-05-10 12:58:08

2023-11-01 13:37:26

2025-01-26 14:07:34

2024-02-21 13:31:00

2025-01-23 14:53:15

2024-12-11 10:11:02

2020-09-07 14:15:16

AI 数据人工智能

2023-06-08 07:58:29

点赞
收藏

51CTO技术栈公众号