测测Kimi新开的k0-math,你是数学模型,但我就测文本
晚上发现kimi也更新了,之前网上流传的kimi在数学上对标o1的模型,可以测试了。
感觉有点迫于deepseek的压力了,本来应该是国内第一个的,长推理、类o1的模型,现在变成了第二个。
模型版本叫k0-math,在数学上的效果也是对标openai-o1,官方也仅仅表示说在数学能力上较强。
来自官方帖子https://mp.weixin.qq.com/s/g4DltigncX-4sfaQ6Qn1zA
但我非要测试看看在文本推理上的效果如何。
测试界面是侧边栏的小眼镜图标,进来直接就可以测试,相较于deepseek-r1模型,k0-math没有次数限制,随便玩。
但不同之处在于,推理过程和结果就是在一起,
下面主要进行一些测试,都是在之前测试deepseek-r1的题目:
还是先测测数据能力
- 2024年年高考全国甲卷数学(文)试题
结果正确,
- 2024年高考全国甲卷数学(理)试题
结果正确,C方程为
;
数学测试了比较多,基本上都是正确的,并且推理过程也很完整,有自我纠错的过程。
这类模型最有意思的地方在于推理过程,看着模型不断推理、不断自证、推翻、再自证的过程,真的很有意思,可以看到未来大模型的希望。
下面就是我要测试的一些文本问题了,依旧老几样:
- 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
回答正确,一开始得出结论是3,但是又仔细分析了一下,自我纠正过来,推理过程我很满意,看过我之前评测的懂得都懂。
- 用水来兑水,得到的是浓水还是稀水
结果正确,依然是相同浓度的水,其实前面也说了,没有浓度的概念。
- 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
老鹰飞飞,这道题本身就有一点争议,反正deepseek也是类似的答案,但我依然觉得没有答到我的“心趴”上。
- 将“I love Kimi-Chat”的所有字母反过来写
我觉得不对,我不能理解为啥要把 “I love”给翻译一下,测了好几次,换了问法也类似,就是“我爱”。
不知道反转问题为啥这么难,之前的deepseek也没对,k0-math也没对。
- strawberry有几个r
答案正确,数的没错,完美。
写在最后
整体效果还是不错的,数学测了一些,还蛮强的,文本推理还有点改进,但是人家毕竟也是k0-math模型,都强调数学了,我狂测文本也是有点不讲道理啦。
本文转载自 NLP工作站,作者: 刘聪NLP