DeepSeek R1 Vs OpenAI o1!全球顶级推理模型训练技术对比大解密! 原创
整理 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
过去12个月,大型语言模型 (LLM) 的重头戏是增强其推理能力,以弥补与通用人工智能 (AGI) 的差距。DeepSeek R1 和OpenAI o1是引领这一发展的两个著名模型,旨在出色地完成复杂的推理任务。
本文对这些模型进行了深入比较,仔细研究了它们的架构设计、训练方法、性能基准、优势、局限性、成本和可访问性。
一、模型概述
DeepSeek-R1:DeepSeek-R1 代表了 DeepSeek-AI 开发的第一代推理模型。它的独特之处在于采用了多阶段训练,即在应用强化学习 (RL) 之前策略性地使用冷启动数据。这种方法专门用于增强模型在各种复杂任务中的推理性能。
OpenAI o1:OpenAI o1 模型系列的设计重点是增强推理功能。与前代产品不同,o1 采用独特的思路链提示策略,使其能够逐步有条不紊地推理问题。这种迭代方法旨在提高模型对复杂查询的响应的准确性和可靠性。
二、训练与架构
1.DeepSeek-R1
强化学习 (RL): DeepSeek R1 的核心是利用大规模强化学习 (RL) 来大幅提高其推理能力。DeepSeek R1 以 DeepSeek-V3-Base 模型的强大基础为基础,采用群组相对策略优化 (GRPO) 作为其主要 RL 框架。这种对 RL 的战略性使用使模型能够自主探索和改进思路链 (CoT) 流程,从而有效解决复杂问题。
冷启动:为了缓解强化学习训练初始阶段的不稳定性,DeepSeek-R1 策略性地将少量高质量数据作为冷启动。这涉及使用精心挑选的长思路链 (CoT) 示例对模型进行微调,这有助于引导模型实现更连贯、更易读的推理过程。
多阶段训练:DeepSeek R1 的训练流程经过精心设计,包含多个阶段,以优化推理准确性和与人类偏好的一致性。这个全面的流程包括:
(1)两个 RL 阶段:这些阶段对于发现和改进推理模式至关重要,使模型能够处理日益复杂的任务。
(2)两个监督微调 (SFT) 阶段:这些阶段作为模型推理和非推理能力的基础种子,确保全面的技能组合。
蒸馏:为了进一步提高小型模型的效率和性能,DeepSeek R1 采用蒸馏技术来从更大、更强大的模型中迁移推理模式。此过程使小型模型能够取得显著成果,通常优于仅通过 RL 训练的模型。
训练模板:DeepSeek-R1-Zero 使用简单的模板进行训练,该模板可指导基础模型遵循指定的指令。此模板要求模型首先生成推理过程,然后生成最终答案。约束被有意限制为这种结构格式,以准确观察模型在 RL 过程中的自然进展。
奖励建模:DeepSeek-R1-Zero 的训练采用基于规则的奖励系统,由准确性奖励(评估响应的正确性)和格式奖励(强制模型将其思考过程置于“”和“”标签之间)组成。
图源:Ahead of AI
2.OpenAI o1
Transformer 模型:与 OpenAI 的所有 LLM 一样,o1 建立在 Transformer 架构上,这是一个基础元素,使模型能够以非凡的流畅度处理和生成文本。
思维链提示:o1 模型采用思路链提示,这是一种先进的策略,可以逐步迭代推理问题。这种方法增强了模型处理复杂查询的能力,并提供更准确的响应。
强化学习:o1 的开发采用了先进的训练技术,其中突出的是强化学习。这使模型能够根据反馈改进其响应,从而增强其推理和解决问题的能力。
系统卡:作为 o1 模型发布的一部分,OpenAI 公开发布了一份系统卡,这是一份描述模型开发期间进行的安全评估和风险评估的文档。
安全训练:OpenAI 实施了一种新颖的安全训练方法,利用模型的推理能力更好地遵守安全和协调准则。
三、性能基准
为了提供清晰简洁的性能比较,下表总结了 DeepSeek R1 和 OpenAI o1 在一系列以推理为重点的任务中的基准测试结果。
Deepseek-R1 Vs OpenAI o1:顶级推理重点 LLMS 的全面比较。
DeepSeek R1 和 OpenAI o1 的基准测试结果。
基准测试结果揭示了几个关键见解:
DeepSeek-R1 与 OpenAI o1–1217:DeepSeek-R1 在 AIME 2024 和 MATH-500 等具有挑战性的推理任务上表现出与 OpenAI o1–1217 相当的性能水平。这表明 DeepSeek-R1 有效地利用了其训练方法来实现具有竞争力的推理准确性。
Codeforces 竞赛:DeepSeek-R1 在代码竞赛任务中展现出专家级的性能,在 Codeforces 上取得了较高的百分位。这凸显了该模型在生成高效、准确代码方面的熟练程度,使其成为开发人员的宝贵工具。
基于知识的基准:在 MMLU 等基于知识的基准上,DeepSeek-R1 的表现略低于 OpenAI-o1–1217,但仍优于其他闭源模型。这表明,虽然 DeepSeek-R1 在推理方面表现出色,但它对一般知识的掌握仍然很强。
AIME 2024 性能:DeepSeek-R1 在 AIME 2024 上取得了 79.8% Pass@1 的分数,略高于 OpenAI-o1–1217。
MATH-500 性能:在 MATH-500 上,DeepSeek-R1 获得了令人印象深刻的 97.3% 的分数,表现与 OpenAI-o1–1217 相当,并明显优于其他模型。
编码相关任务:DeepSeek-R1 在代码竞赛任务中展现了专家水平,在 Codeforces 上获得了 2,029 Elo 评级,在比赛中表现优于 96.3% 的人类参与者。
四、DeepSeek-R1 开发中的关键实验和发现
DeepSeek-R1-Zero:此模型将 RL 直接应用于基础模型,而无需依赖监督微调 (SFT) 作为初步步骤。它探索了解决复杂问题的思路链 (CoT),并展示了自我验证、反思和生成长 CoT 等功能。DeepSeek-R1-Zero 验证了 LLM 的推理能力可以纯粹通过 RL 来激励,而无需 SFT。
DeepSeek-R1-Zero 的顿悟时刻:在训练过程中,DeepSeek-R1-Zero 经历了“顿悟时刻”,它学会了通过重新评估其初始方法为问题分配更多思考时间。这凸显了强化学习在使模型能够自主开发高级问题解决策略方面的强大功能。
蒸馏的好处:将更强大的模型蒸馏成更小的模型可以得到很好的结果,而依赖于大规模 RL 的小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能。
五、DeepSeek R1 当然也公开了效果不好的探索
过程奖励模型 (PRM):虽然 PRM 是一种合理的方法,可以引导模型找到解决推理任务的更好方法,但它也有局限性。在一般推理中,明确定义细粒度步骤具有挑战性,确定当前中间步骤是否正确也很困难,并且不可避免地会导致奖励黑客攻击。
蒙特卡洛树搜索 (MCTS):这种方法涉及将答案分解成更小的部分,以便模型系统地探索解决方案空间。然而,扩大训练规模会遇到挑战,例如 token 生成中的搜索空间呈指数级增长,以及训练细粒度价值模型的难度。
六、优势
1.DeepSeek R1
推理能力:DeepSeek-R1 通过强化学习实现强大的推理能力,无需依赖监督式微调。这凸显了该模型仅通过强化学习就能有效学习和泛化的能力。
自我进化:该模型展示了通过强化学习自主提高推理能力的能力。这种自发发展显著增强了 DeepSeek-R1-Zero 的推理能力,使其能够以更高的效率和准确性应对更具挑战性的任务。
泛化:DeepSeek-R1 表现出强大的泛化能力,提高了跨不同领域的性能。其性能显著优于 DeepSeek-V3,凸显了大规模 RL 的泛化优势,不仅提高了推理能力,还提高了跨不同领域的性能。
编码性能:模型在编码相关任务中表现出强劲的性能,在代码竞赛任务中展现出专家水平。
长上下文理解:DeepSeek-R1 在需要长上下文理解的任务上表现出色,在长上下文基准测试中大大优于 DeepSeek-V3。
2.OpenAI o1
STEM 专业知识:OpenAI o1 擅长复杂的推理任务,尤其是在科学、技术、工程和数学 (STEM) 领域。
编码:该模型能够有效地生成和调试代码,在编码基准测试中表现良好。该模型还能有效地帮助开发人员构建和执行多步骤工作流程。
数学:OpenAI o1 在数学相关的基准测试中表现出色。
图像分析:该模型提供高级图像分析功能,让用户上传图像并接收详细的反馈。例如,用户可以上传鸟舍等物体的照片并接收建造说明,或提交数据中心设计草图并接收详细的技术反馈。
安全性:OpenAI o1 在抵抗越狱方面表现出显著的进步。在挑战性拒绝评估中,o1 获得了 0.92 的非不安全分数,优于 GPT-4o 的 0.713。
自我事实核查:o1 模型可以自我事实核查,提高其响应的准确性。
减轻偏见:这些模型在衡量种族、性别和年龄在决策中的使用情况的评估中表现出了更好的表现,其中 o1 的表现通常优于 GPT-4o。
七、限制
1.DeepSeek R1
语言混合: DeepSeek-R1 可能会出现语言混合,尤其是当 RL 提示涉及多种语言时。
提示敏感度:模型的性能对提示很敏感,少量提示有时会降低性能。
软件工程任务:由于 RL 训练数据有限,DeepSeek-R1 在软件工程基准测试中并未表现出比 DeepSeek-V3 有显著的改进。
总体能力:在函数调用、多轮交互、复杂角色扮演、JSON输出等任务上,该模型的能力与DeepSeek-V3相比存在差距。
安全 RL: DeepSeek-R1 在中国 SimpleQA 基准上的表现不如 DeepSeek-V3,主要是因为它在安全 RL 之后倾向于拒绝回答某些查询。
语言优化: DeepSeek-R1 目前针对中文和英文进行了优化,在处理其他语言的查询时可能会导致语言混合问题。
2.OpenAI o1
功能缺陷: OpenAI o1 缺乏网页浏览功能,尽管这是计划中的未来功能。
API 限制:在发布时,API 存在各种限制,限制了模型的功能。
响应时间:由于推理过程更为彻底,该模型最初比以前的模型慢。
成本:对于 API 用户来说,OpenAI o1 比之前的模型更贵。
网页浏览: o1 型号缺乏网页浏览功能,尽管这是计划中的未来功能。
OpenAI 已宣布计划扩展 o1 的 API 功能,以在未来的更新中包含函数调用和结构化输出等增强功能。
八、成本和可访问性
DeepSeek R1:DeepSeek-R1 及其 API 的开源特性旨在通过在未来提炼出更好、更小的模型来造福研究界。提炼后的 Qwen 和 Llama 系列是开源的。
OpenAI o1:订阅 ChatGPT Plus、Team、Enterprise 和 Education 的用户可直接访问 o1 和 o1-mini 模型。o1 pro 模型仅通过 ChatGPT Pro 套餐提供,价格为每月 200 美元。开发人员可以通过 OpenAI 的 API 访问 o1 和 o1-mini。
ChatGPT Pro:ChatGPT Pro 套餐每月收费 200 美元,是 o1 pro 模式的首个专属平台。ChatGPT Pro 还包括一项资助计划,为领先的医学研究人员提供免费访问权限,初始资助授予波士顿儿童医院、伯克利实验室和杰克逊实验室等机构的研究人员。
第三方服务:多家第三方服务已提供这些模型,包括 Microsoft Azure AI Studio 和 GitHub Models。
九、安全和道德考虑
OpenAI o1 目前公开的安全道德方面的公开资料如下:
安全功能:
o1 模型使用大规模强化学习在响应之前进行复杂的推理。这使它们能够改进生成过程并识别错误。因此,它们可以更好地遵循特定的指导方针和模型政策,从而提高提供安全和适当内容的能力。
抗越狱性:
o1 模型在抗越狱方面表现出显著的改进。在 Strong Reject 基准测试中(该基准测试了对文献中常见攻击的抵抗力),o1 和 o1-mini 的得分高于 GPT-4o。
内容政策遵守情况
:在挑战性拒绝评估中,测试模型拒绝骚扰、仇恨言论和非法活动等类别的不安全内容的能力,o1 获得了 0.92 的非不安全分数,优于 GPT-4o 的 0.713。
减少偏见
:在用于测试人口公平性的 QA 评估偏见基准上,o1 在明确问题上选择正确答案的概率为 94%,而 GPT-4o 的正确答案率为 72%。在衡量种族、性别和年龄在决策中的使用情况的评估中,这些模型的表现也得到了改善,o1 的表现通常优于 GPT-4o。
清晰易懂的安全监控:
o1 模型提供的思路链摘要为安全监控提供了一种新方法。在对 100,000 个合成提示的分析中,只有 0.17% 的 o1 回答被标记为欺骗性,其中大多数是幻觉形式,而不是故意欺骗。
——写在最后——
DeepSeek R1 和 OpenAI o1 是推理类 LLM 发展的重要里程碑。DeepSeek R1 有效地展示了强化学习和提炼技术在增强推理能力方面的潜力。
相比之下,OpenAI o1 在 STEM 领域、编码和数学方面表现出色,同时优先考虑安全性和协作开发。
整体上看,这两种模型都有自己独特的优势和局限性,各自都有不同的适用场景。随着该领域的发展,预计即将到来的迭代将解决现有的限制,并进一步增强这些模型的推理和综合能力。
参考链接:
https://medium.com/@bernardloki/which-ai-model-can-actually-think-better-deepseek-r1-vs-openai-o1
本文转载自51CTO技术栈,作者:言征