Kimik1.5、DeepSeek-V3 大战 OpenAI o1，谁能笑到最后？精华

发布于 2025-1-26 14:58

浏览

0收藏

最近，国内大模型界可谓是“风起云涌”，kimi k1.5 和 DeepSeek-V3 这两位“大侠”横空出世，一路“杀疯了”，不断向 OpenAI 和其他海外大模型的霸主地位发起挑战。这不禁让人想起了那句网络梗：“一山更比一山高，一模更比一模强！”今天，咱们就来好好对比一下这两位国内大模型界的“当红炸子鸡”，看看它们到底有何不同，顺便再和海外顶尖的 OpenAI o1 对比一下，看看咱们离国际顶尖水平还有多远。

接下来，咱们就来详细对比一下这三位“大侠”，看看它们各自的“绝招”和“短板”。

1、Kimi k1.5 与 DeepSeek-V3 对比

模型架构

先来瞅瞅这两位“大侠”的模型架构。DeepSeek-V3 是个“大家伙”，拥有 6710 亿参数，不过每个标记只激活 370 亿参数。它采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，这种架构在处理复杂任务时表现相当出色，就像给模型装上了多个“超级大脑”，让它能同时处理多种任务，效率杠杠的。而且，它还率先采用了无辅助损失的负载平衡策略，这在训练过程中可是个“黑科技”，能有效避免性能下降，让模型训练得又稳又快。

再看看 Kimi k1.5，它是个多模态大型语言模型，能够同时处理文本和视觉数据。这种多模态能力就像是给模型装上了“眼睛”和“耳朵”，让它不仅能“读”还能“看”，在解决一些需要结合图像和文本信息的问题时，优势特别明显。比如在数学问题中，如果有几何图形，Kimi k1.5 就能通过图像识别和文本理解相结合，更准确地给出答案。

训练策略

说到训练策略，DeepSeek-V3 可是下了不少功夫。它在 14.8 万亿多样化和高质量的标记上进行预训练，然后经过监督微调和强化学习阶段。这种“三步走”策略让模型在训练过程中不断优化，性能逐步提升。而且，它的训练过程非常稳定，2.788M H800 GPU 小时就完成了全部训练，这在大模型里算是相当高效的了。这种稳定的训练过程就像给模型打下了坚实的基础，让它在后续的应用中表现更加可靠。

Kimi k1.5 的训练策略也很有特点。它采用了长文本上下文扩展（Long Context Scaling）和改进的策略优化方法（Improved Policy Optimization）。上下文窗口扩展到 128k，通过部分轨迹回放技术提高训练效率。这种长文本上下文的处理能力，让模型在处理复杂推理任务时，能够更好地理解和生成长链推理路径。而且，它还通过课程学习和优先采样等方法，让模型先从简单任务开始，逐步过渡到复杂任务，这种循序渐进的训练方式，就像是给模型“喂饭”，让它一点一点地吸收知识，最终变得更强大。

性能表现

在性能表现上，这两位“大侠”各有千秋。DeepSeek-V3 在知识问答、长文本处理、代码生成、数学能力等方面都展现出了强大的实力。比如在 MMLU、GPQA 等知识类任务中，它的表现接近国际顶尖模型 Claude-3.5-Sonnet-1022；在 DROP、LongBench v2 等长文本测评中，平均表现超越了其他模型；在算法类代码场景（如 Codeforces）中，远远领先于其他开源模型；在美国数学竞赛（AIME 2024）和中国高中数学联赛（CNMO 2024）中，表现超过了所有开源和闭源模型。

Kimi k1.5 也不甘示弱。在长链推理（Long-CoT）和短链推理（Short-CoT）任务上表现特别出色。比如在数学推理方面，在 MATH-500 上达到 96.2 的 EM 分数，在 AIME 2024 上达到 77.5 的 Pass@1 分数，与 OpenAI 的 o1 模型相当；在编程能力上，在 Codeforces 上达到 94 百分位，表现相当亮眼；在视觉推理方面，在 MathVista 上达到 74.9 的 Pass@1 分数。而且，Kimi k1.5 还通过长链到短链推理技术，显著提高了短链推理模型的性能和 token 效率。

为了更直观地对比，咱们来个表格：

项目	DeepSeek-V3	Kimi k1.5
模型架构	6710 亿参数，多头潜在注意力（MLA）和 DeepSeekMoE 架构，无辅助损失的负载平衡策略	多模态，长文本上下文扩展（128k），改进的策略优化方法
训练策略	14.8 万亿标记预训练，监督微调 + 强化学习，训练稳定，2.788M H800 GPU 小时	长文本上下文扩展，部分轨迹回放，课程学习和优先采样
性能表现	知识问答接近国际顶尖模型，长文本处理超越其他模型，代码生成和数学能力领先	长链推理和短链推理表现出色，数学推理和编程能力与 OpenAI o1 相当，视觉推理能力强

这两位“大侠”各有优势，DeepSeek-V3 在多任务处理和稳定性上表现突出，Kimi k1.5 在多模态和长文本推理上更有特色。接下来，咱们再看看它们和 OpenAI o1 的差距，看看咱们离国际顶尖水平还有多远。

与 OpenAI o1 对比

为了更直观地对比 Kimi k1.5、DeepSeek-V3 和 OpenAI o1 这三位“大侠”，咱们来个详细的表格，看看它们在各个关键指标上的表现，直接上干货！

项目	DeepSeek-V3	Kimi k1.5	OpenAI o1
模型架构	6710 亿参数，多头潜在注意力（MLA）和 DeepSeekMoE 架构，无辅助损失的负载平衡策略	多模态，长文本上下文扩展（128k），改进的策略优化方法	基于强化学习的内化思维链学习，支持长上下文处理
训练策略	14.8 万亿标记预训练，监督微调 + 强化学习，训练稳定，2.788M H800 GPU 小时	长文本上下文扩展，部分轨迹回放，课程学习和优先采样	强化学习 + 内化思维链，训练时间长，计算资源需求高
性能表现	知识问答接近国际顶尖模型，长文本处理超越其他模型，代码生成和数学能力领先	长链推理和短链推理表现出色，数学推理和编程能力与 OpenAI o1 相当，视觉推理能力强	在复杂推理任务上表现卓越，数学推理和多模态处理能力出色
推理能力	在 MMLU、GPQA 等知识类任务中表现接近国际顶尖模型 Claude-3.5-Sonnet-1022；在 DROP、LongBench v2 等长文本测评中平均表现超越其他模型	在 MATH-500 上达到 96.2 的 EM 分数，在 AIME 2024 上达到 77.5 的 Pass@1 分数，与 OpenAI 的 o1 模型相当；在 Codeforces 上达到 94 百分位	在 2024 年的 AIME 考试中，使用一个样本平均解决了 74% 的问题，使用 64 个样本的共识解决了 83% 的问题，并通过学习到的评分函数对 1000 个样本进行重新排序后解决了 93% 的问题
多模态处理	主要以文本处理为主，但在多模态任务中也表现出色	能够同时处理文本和视觉数据，具备联合推理能力，适用于数学、代码和视觉推理等领域	虽然主要以文本推理为主，但在启用视觉感知能力后，在 MMMU 基准测试中获得了 78.2% 的分数
性价比	训练成本相对较低，2.788M H800 GPU 小时完成全部训练，性价比高	训练成本低，通过长链到短链推理技术显著提高短链推理模型的性能和 token 效率	训练成本高，计算资源需求大，实际应用成本较高

性能对比总结

从上面的表格可以看出，这三位“大侠”各有千秋，各有各的“绝招”：

DeepSeek-V3：在多任务处理和稳定性上表现突出，特别是在知识问答、长文本处理、代码生成和数学能力方面，堪称“多面手”，适合需要处理复杂任务的场景。
Kimi k1.5：在多模态处理和长文本推理上更有特色，数学推理和编程能力也不逊色，性价比高，是“性价比之王”，适合大规模应用和推广。
OpenAI o1：在复杂推理任务上表现卓越，数学推理和多模态处理能力出色，但成本较高，适合对推理能力要求极高的场景。

这三位“大侠”各有优势，也各有“短板”，未来的发展值得期待。

本文转载自智驻未来，作者：小智

标签

51CTO

51CTO博客

51CTO学堂

Kimik1.5、DeepSeek-V3 大战 OpenAI o1，谁能笑到最后？精华

1、Kimi k1.5 与 DeepSeek-V3 对比

模型架构

训练策略

性能表现

与 OpenAI o1 对比

性能对比总结

目录

51CTO

51CTO博客

51CTO学堂

Kimik1.5、DeepSeek-V3 大战 OpenAI o1，谁能笑到最后？ 精华

1、Kimi k1.5 与 DeepSeek-V3 对比

模型架构

训练策略

性能表现

与 OpenAI o1 对比

性能对比总结

目录

Kimik1.5、DeepSeek-V3 大战 OpenAI o1，谁能笑到最后？精华