译者 | 李睿
审校 | 重楼
生成式人工智能开发商OpenAI公司首席执行官Sam Altman最近在Reddit AMA问答活动中承认,该公司在开源软件研究方面站在了“历史错误的一边”。
尽管OpenAI公司尚未发布其开源模型,但已经迈出了提高透明度的第一步。正如该公司在其X帐号上所宣布的那样,其最新的推理模型o3-mini现在展示了其思维链(CoT)跟踪的更详细版本。
此前,OpenAI公司的推理模型仅展示了CoT的高级概述,这使得开发人员难以理解模型的推理逻辑并对提示进行相应的调整。
OpenAI公司隐藏了CoT以防止竞争对手利用这一技术来训练他们自己的模型。但是,在展示所有CoT令牌的DeepSeek-R1模型发布之后,OpenAI在保持其竞争优势方面面临着严峻挑战。
OpenAI公司最近进行的更改展示了CoT的更详细版本,但并没有揭示原始的推理令牌,这让OpenAI公司在增强透明度和保护其核心竞争力(如果有的话)之间取得了巧妙的平衡。
以下是展示思维链非常重要的原因。在本文作者之前的对比实验中,发现OpenAI公司的o1模型在处理来自网络的噪声数据时略优于DeepSeek-R1。然而,由于o1没有揭示其思维链,因此很难对其错误进行故障排除(而且当这两个模型不是解决简单问题时,它们都会出现错误)。另一方面,DeepSeek-R1的透明度使其成为现实应用中更好的整体模型。
例如,在一个失败的实验中,DeepSeek-R1的CoT帮助开发人员发现问题不在于模型本身,而在于获取数据的检索组件(这种问题在实际应用中经常发生)。另一方面,o1只给出了一个错误的答案和一个模糊的推理链。
本文作者对o3-mini进行了一项测试,他向这一模型提供了包含2024年至2025年历史股票价格数据的文件,并向它提出了需要推理和数据分析的问题(由于ChatGPT o3-mini不支持文件附件上传,因此只能将内容粘贴到提示中)。这项测试旨在计算每月在Magnificent 7股票上投资140美元的投资组合的价值。该文件包含从雅虎财经获取的繁杂数据。这些数据包含纯文本和HTML元素,其中涵盖了“Mag 7”股票和非“Mag 7”股票。
测试结果表明,这种新提供的详尽的CoT极具价值。它可以跟踪模型推理过程,其中包括哪些股票是“Mag 7”股票,哪些股票在文件中,哪些应该被忽略,以及如何在这些股票之间合理分配投资,以及如何在每个月初准确地获取每个股票的价值数据等。该模型提供了详细的答案,不仅详细阐述了整个推理过程,还明确指出了投资组合的最终价值。
DeepSeek-R1在开放性、价格和透明度方面具有OpenAI公司的推理模型无法比拟的三大优势。OpenAI通过发布o3-mini在一定程度上缩小了差距。
o3-mini的成本极具竞争力,输出每百万令牌仅需4.40美元,远低于o1的60美元,与此同时,它在多个推理基准测试中的表现还优于o1。相比之下,DeepSeek-R1在美国供应商的运行成本约为每百万令牌7至8美元。(值得注意的是,虽然DeepSeek在其服务器上运行的R1服务以每百万令牌2.19美元的优惠价格提供,但许多组织因地域限制而无法使用。)
更改之后的CoT输出也将帮助OpenAI公司在透明度方面取得显著进展。但随着越来越多的云计算服务提供商将其集成到他们的产品中,模型构建者也在此基础上创建衍生品,DeepSeek-R1正迅速成为推理模型的标准。然而,OpenAI公司是否会改变其保持模型封闭的政策仍有待观察。
原文标题:OpenAI reveals o3’s reasoning process to bridge gap with DeepSeek-R1,作者:Ben Dickson