鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Kimi思考模型k1.5是怎么练成的？细节曝光

发布于 2025-1-22 11:58

浏览

0收藏

Kimi发布新一代多模态思考模型k1.5，在竞赛数学、代码能力及视觉思考等测试中，k1.5模型性能已达到全球领先模型OpenAI o1 正式版水平，月之暗面也成为OpenAI 之外，全球第二家到达该水平的人工智能企业。

Kimi 1.5 long-CoT评测结果

Kimi思考模型k1.5是怎么练成的？细节曝光-AI.x社区

long to short，用长链式思考技术改进短链式思考模型，在短链式推理性能测试中，k1.5模型在数学、代码、视觉多模态和通用能力等方面到达或超越GPT-4o、Claude Sonnet 3.5等全球领先模型。

Kimi 1.5 short-CoT评测结果

Kimi思考模型k1.5是怎么练成的？细节曝光-AI.x社区

新模型发布的同时，kimi还首次对外公布了多模态模型技术训练报告，k1.5的训练包括这几个阶段：

预训练 -> SFT -> Long-CoT SFT -> RL

其中，预训练与SFT要点概况如下：

预训练：k1.5 的预训练涉及多模态数据（文本、视觉、OCR 等），并分为三个阶段：视觉-语言预训练、冷启动阶段和长文本激活阶段。
监督微调：使用高质量的标注数据进行分阶段学习率调整微调，涵盖问答、写作、数学、编程和视觉-文本数据。

25页的技术报告重点聚焦在强化学习部分：

数据构建 -> 预热 Long-CoT SFT -> RL -> Long2Short

https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf

Kimi思考模型k1.5是怎么练成的？细节曝光-AI.x社区

1. RL数据构建

数据质量和多样性对强化学习的效果至关重要。高质量的提示集可以引导模型进行稳健的推理，并减少 reward hacking 和 overfitting 的风险。

多样化覆盖：涵盖广泛的学科领域（如 STEM、编程和通用推理），以增强模型的适应性。
难度平衡：包含不同难度级别的问题，以支持模型的逐步学习。
可验证性：答案和推理过程应能够被准确验证，避免模型通过错误的推理过程得出正确答案。

2、预热-Long-CoT微调

通过构建小的高质量 Long-CoT 热身数据集并进行微调，目的是让模型内化人类推理的关键认知过程（如规划、评估、反思和探索），从而提升其在复杂推理任务中的表现和逻辑连贯性。

3、强化学习

强化学习是 k1.5 的核心训练阶段，无需依赖蒙特卡洛树搜索（MCTS）、价值函数或过程奖励模型等复杂技术，通过长上下文扩展和策略优化实现高效学习。

Kimi思考模型k1.5是怎么练成的？细节曝光-AI.x社区

长上下文扩展是k1.5的核心创新之一。通过将上下文窗口扩展到128k，模型能够处理更复杂的推理任务。背后的关键技术是 partial rollout ，它允许模型在训练过程中复用之前生成的轨迹片段，避免从头开始生成新轨迹，从而显著提高训练效率。
k1.5采用在线镜像下降算法的变体进行策略优化，通过采样策略、长度惩罚和数据配方优化，进一步提升模型性能。长度惩罚机制通过限制模型生成过长的推理过程，提高推理效率，同时避免“过度思考”问题。此外，模型还采用了curriculum sampling和 prioritized sampling 策略，优先训练模型在困难问题上的表现。

4、Long2short

Long-CoT模型表现出色，但在测试时消耗的token数量比Short-CoT更多。有没可能将Long-CoT推理模型的思维先验转移到Short-CoT推理模型中，从而即使在测试时的token预算有限的情况下，也能提升性能，答案是肯定，k1.5尝试了以下方法：

模型融合（Model Merging）：通过平均权重合并Long-CoT 和Short-CoT 模型。
最短拒绝采样（Shortest Rejection Sampling）：从多次采样中选择最短的正确答案。
直接偏好优化（DPO）：通过正负样本对训练Short-CoT 模型。
Long2Short RL 训练：通过 RL 进一步优化Short-CoT 模型的性能。

Kimi思考模型k1.5是怎么练成的？细节曝光-AI.x社区

本文转载自 PaperAgent，作者： PaperAgent

标签

已于2025-1-24 10:11:05修改

赞

收藏

回复

举报

回复

相关推荐

直击 Google Cloud Next 2024 大会更多细节，不只Gemini 1.5 Pro ！

51CTO技术栈 • 3002浏览 • 0回复
怎么使用langchain加载模型？langchain加载模型的几种方式

AI探索时代 • 4208浏览 • 0回复
你知道神经网络是怎么运作的吗？神经网络内部原理解析

AI探索时代 • 1106浏览 • 0回复
一句话意外挖出了 Kimi 的隐藏提示词，原来 Kimi 的限制措施是这么实现的（附完整提示词）！

wsp_ping • 1.1w浏览 • 0回复
Gamma创始人畅谈现象级AI+PPT产品是怎么做出来的？

Syrupup • 2737浏览 • 0回复
AI新思考：“浴火重生”的草莓模型

鲁班模锤1 • 870浏览 • 0回复
ChatGPT 的“绝世神功”，是如何练成的？

sulu637 • 671浏览 • 0回复
测测Kimi新开的k0-math，你是数学模型，但我就测文本

NLP工作站 • 681浏览 • 0回复
Kimi，绝了

风云2002_1 • 664浏览 • 0回复
什么是AI Agent，以及怎么实现AI Agent?

AI探索时代 • 1078浏览 • 0回复
Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

51CTO技术栈 • 1537浏览 • 0回复
谷歌AI发布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 • 4029浏览 • 0回复
AI 赋能深度思考：从六顶思考帽到智能体实践

ermulong • 1228浏览 • 0回复
神经网络是怎么学习的？

AI探索时代 • 402浏览 • 0回复
Kimi发布最新模型k1.5，技术报告也干货满满

NLP工作站 • 1620浏览 • 0回复
用强化学习重塑多模态AI：解读Kimi k1.5的突破与创新

Halo咯咯 • 775浏览 • 0回复
Kimi开源Moonlight-16B-A3B的MoE模型！！

NLP工作站 • 302浏览 • 0回复
Grok 3 与 DeepSeek-R1 是怎么学会思考的？

机器学习与数学 • 336浏览 • 0回复
【AI洞察】Kimi 1.5技术报告全解析：长链推理、短链优化与多模态融合的创新实践

Halo咯咯 • 116浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

HippoRAG 2发布，GraphRAG退位！ 6h前发布
冲，DeepSeek-R1/V3推理系统架构设计被开源了！ 6h前发布

热门推荐

比GraphRAG更懂“思考”，微软又开源PIKE-RAG：主打复杂私域知识理解和推理 0回复

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建议收藏！ 0回复

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

上一篇： AMD发布科研Agent，论文自动化评分趋近顶会NeurIPS水平！

下一篇： RAG圈的DeepSeek，中科院DeepRAG让大模型带着“思考”检索，性能提升21.99%

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载