测测Kimi新开的k0-math,你是数学模型,但我就测文本

发布于 2024-11-27 15:42
浏览
0收藏

晚上发现kimi也更新了,之前网上流传的kimi在数学上对标o1的模型,可以测试了。

感觉有点迫于deepseek的压力了,本来应该是国内第一个的,长推理、类o1的模型,现在变成了第二个。

模型版本叫k0-math,在数学上的效果也是对标openai-o1,官方也仅仅表示说在数学能力上较强。

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

来自官方帖子https://mp.weixin.qq.com/s/g4DltigncX-4sfaQ6Qn1zA

但我非要测试看看在文本推理上的效果如何。

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

测试界面是侧边栏的小眼镜图标,进来直接就可以测试,相较于deepseek-r1模型,k0-math没有次数限制,随便玩。

但不同之处在于,推理过程和结果就是在一起,

下面主要进行一些测试,都是在之前​​测试deepseek-r1的题目​​:

还是先测测数据能力

  • 2024年年高考全国甲卷数学(文)试题

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

结果正确,

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

  • 2024年高考全国甲卷数学(理)试题

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

结果正确,C方程为

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

;

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

数学测试了比较多,基本上都是正确的,并且推理过程也很完整,有自我纠错的过程。

这类模型最有意思的地方在于推理过程,看着模型不断推理、不断自证、推翻、再自证的过程,真的很有意思,可以看到未来大模型的希望。

下面就是我要测试的一些文本问题了,依旧老几样:

  • 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

回答正确,一开始得出结论是3,但是又仔细分析了一下,自我纠正过来,推理过程我很满意,看过我之前评测的懂得都懂。

  • 用水来兑水,得到的是浓水还是稀水

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

结果正确,依然是相同浓度的水,其实前面也说了,没有浓度的概念。

  • 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

老鹰飞飞,这道题本身就有一点争议,反正deepseek也是类似的答案,但我依然觉得没有答到我的“心趴”上。

  • 将“I love Kimi-Chat”的所有字母反过来写

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

我觉得不对,我不能理解为啥要把 “I love”给翻译一下,测了好几次,换了问法也类似,就是“我爱”。

不知道反转问题为啥这么难,之前的deepseek也没对,k0-math也没对。

  • strawberry有几个r

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

测测Kimi新开的k0-math,你是数学模型,但我就测文本-AI.x社区

答案正确,数的没错,完美。

写在最后

整体效果还是不错的,数学测了一些,还蛮强的,文本推理还有点改进,但是人家毕竟也是k0-math模型,都强调数学了,我狂测文本也是有点不讲道理啦

本文转载自 NLP工作站​,作者: 刘聪NLP

收藏
回复
举报
回复
相关推荐