鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

测测Kimi新开的k0-math，你是数学模型，但我就测文本

发布于 2024-11-27 15:42

浏览

0收藏

晚上发现kimi也更新了，之前网上流传的kimi在数学上对标o1的模型，可以测试了。

感觉有点迫于deepseek的压力了，本来应该是国内第一个的，长推理、类o1的模型，现在变成了第二个。

模型版本叫k0-math，在数学上的效果也是对标openai-o1，官方也仅仅表示说在数学能力上较强。

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

来自官方帖子https://mp.weixin.qq.com/s/g4DltigncX-4sfaQ6Qn1zA

但我非要测试看看在文本推理上的效果如何。

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

测试界面是侧边栏的小眼镜图标，进来直接就可以测试，相较于deepseek-r1模型，k0-math没有次数限制，随便玩。

但不同之处在于，推理过程和结果就是在一起，

下面主要进行一些测试，都是在之前测试deepseek-r1的题目：

还是先测测数据能力

2024年年高考全国甲卷数学（文）试题

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

结果正确，

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

2024年高考全国甲卷数学（理）试题

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

结果正确，C方程为

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

;

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

数学测试了比较多，基本上都是正确的，并且推理过程也很完整，有自我纠错的过程。

这类模型最有意思的地方在于推理过程，看着模型不断推理、不断自证、推翻、再自证的过程，真的很有意思，可以看到未来大模型的希望。

下面就是我要测试的一些文本问题了，依旧老几样：

小红有2个兄弟，3个姐妹，那么小红的兄弟有几个姐妹

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

回答正确，一开始得出结论是3，但是又仔细分析了一下，自我纠正过来，推理过程我很满意，看过我之前评测的懂得都懂。

用水来兑水，得到的是浓水还是稀水

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

结果正确，依然是相同浓度的水，其实前面也说了，没有浓度的概念。

未来的某天，李同学在实验室制作超导磁悬浮材料时，意外发现实验室的老鼠在空中飞，分析发现，是因为老鼠不小心吃了磁悬浮材料。第二天，李同学又发现实验室的蛇也在空中飞，分析发现，是因为蛇吃了老鼠。第三天，李同学又发现实验室的老鹰也在空中飞，你认为其原因是

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

老鹰飞飞，这道题本身就有一点争议，反正deepseek也是类似的答案，但我依然觉得没有答到我的“心趴”上。

将“I love Kimi-Chat”的所有字母反过来写

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

我觉得不对，我不能理解为啥要把 “I love”给翻译一下，测了好几次，换了问法也类似，就是“我爱”。

不知道反转问题为啥这么难，之前的deepseek也没对，k0-math也没对。

strawberry有几个r

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

测测Kimi新开的k0-math，你是数学模型，但我就测文本-AI.x社区

答案正确，数的没错，完美。

写在最后

整体效果还是不错的，数学测了一些，还蛮强的，文本推理还有点改进，但是人家毕竟也是k0-math模型，都强调数学了，我狂测文本也是有点不讲道理啦。

本文转载自 NLP工作站，作者：刘聪NLP

标签

赞

收藏

回复

举报

回复

相关推荐

亲测效果惊艳！

angel • 3227浏览 • 0回复
AI作曲家被踢馆，亲测周杰伦爆款大翻车

duhorse • 1702浏览 • 0回复
全网首测迪士尼VR魔法地板，360度原地行走环游地球！

duhorse • 1484浏览 • 0回复
14 项任务测下来，GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力？

轻薄滴假象 • 1417浏览 • 0回复
首测！GPT-4o做Code Review可行吗？

51CTO技术栈 • 2142浏览 • 0回复
电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力

sbf_2000 • 3177浏览 • 0回复
比OpenAI的Whisper快50%，最新开源语音模型

Aceryt • 1225浏览 • 0回复
一句话意外挖出了 Kimi 的隐藏提示词，原来 Kimi 的限制措施是这么实现的（附完整提示词）！

wsp_ping • 1.2w浏览 • 0回复
AgentWrite：为什么你的模型生成的内容长度总是不超过2K?

大语言模型论文跟踪 • 2316浏览 • 0回复
增强问答文本检索的排序（RAG）模型，你学会了吗？

AI论文解读 • 1999浏览 • 0回复
Qwen2.5：13个新模型来袭！开源通用、编码、数学模型全解读，72B超越Llama 405B - 本地安装测试

老蛀虫 • 3321浏览 • 0回复
Qwen2.5：13个新模型来袭！开源通用、编码、数学模型全解读，72B超越Llama 405B - 本地安装测试

老蛀虫 • 2601浏览 • 0回复
Kimi官宣，国内首个对标OpenAI的数学模型来了

风云2002_1 • 797浏览 • 0回复
你知道大模型聊天补全和文本生成的区别吗？

AI探索时代 • 1597浏览 • 0回复
Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

51CTO技术栈 • 1785浏览 • 0回复
Kimi的长文本能力：为何优于其他大模型

风云2002_1 • 951浏览 • 0回复
Kimi思考模型k1.5是怎么练成的？细节曝光

PaperAgent • 1508浏览 • 0回复
Kimi发布最新模型k1.5，技术报告也干货满满

NLP工作站 • 1921浏览 • 0回复
用强化学习重塑多模态AI：解读Kimi k1.5的突破与创新

Halo咯咯 • 1039浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

探讨大模型预训练与微调之间的相互作用 8天前发布
来了！Kimi开源Moonlight-16B-A3B的MoE模型！！ 2025-02-25 12:49:10发布

热门推荐

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

从推理到编程，详细比较DeepSeek 32B、70B、R1实践性能 0回复

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

低成本+高性能+超灵活！Deepseek 671B + Milvus 重新定义知识库搭建！ 0回复

DeepSeek R1 全系列模型部署指南 0回复

上一篇： LLM实践系列-细聊LLM的拒绝采样

下一篇：聊聊对强化微调（RFT）的理解及看法

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载