编辑 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
Kimi最近太猛了!所有的教育产品感觉都要被颠覆了。
今天,Kimi上线发布一款相当炸裂的AI功能——视觉思考模型k1。可以说颠覆了“K12赛道”的传统搜题解题的产品!
小编惊呼:有了Kimi,学生们还需要手机里安装各种拍照搜题找答案的软件吗?可以预想到,从幼儿园到大学,整个教育赛道恐怕要掀起一股惊涛骇浪!
Kimi,果真越来越“学霸”了!话不多说,直接上干货。
光看这个名字“k1”,就能让大家联想到1个月前kimi推出的对标OpenAI o1系列的 k0-math模型,自然是类o1模型的重大升级。的确是这样,官方介绍道:视觉思考模型k1,同样是强化学习技术打造,但不同的是——
这次的k1模型原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。
简单理解,这次的k1有两点创新:一是原生支持端到端的图像理解,二是数理化难题全都能拿下了!
在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。
图片
1.Kimi实测,当之无愧的大模型学霸
上个月,清华学霸杨植麟冷不防就丢出了k0-math模型,各种奥数级别的难题都可以解决,但也存在不足:由于主要支持LaTeX等格式的文本输入,依赖图形理解能力的部分几何图形题则难以应对。
不过现在,这个问题在k1视觉思考模型就解决了。借助端到端的图像理解能力,解锁了包括几何图形题在内更加全面的数学能力。
图片
在不同阶段的几何和图形题专项基准能力测试中,k1-preview 成绩追平或超过了 OpenAI 的 o1 模型。
kimi有测试一道普通几何题,
图片
这当然还不算完,除了算几何题,学霸自然是文理全通,数理化都得不在话下。
除了数学能力,k1视觉思考模型将能力扩展到了物理、化学等领域。在基础科学学科教育阶段(这不就是K12嘛)的物理和化学能力测试中,k1 模型的表现同样不输全球领先的玩家 OpenAI 和 Anthropic。
我们来看一道 k1 视觉思考模型解答经典物理电路题的例子:
图片
再来个化学题目,kimi的同学将一张曾获得诺贝尔化学奖的技术原理图去掉大部分文字说明,只留下“QD”两个字母,看 k1 是如何一步一步分析出原理图是在讲什么。
图片
小编实测了下,果真是学霸,大学物理也被Kimi搞定了!一个电荷电场的计算难题——
图片
图片
最后自己被自己感动了,还不失淘气的说:真是令人欣慰呀!
2.大模型理解图像,如何做到的?
之前拍照搜题更多采用的是视觉理解模型,图像分割和图像识别等技术,当然效果也不错,但也存在很多问题。比如,这种技术要求拍照或者照片的内容的质量要足够高,亮度不能太暗,如果是手写,字迹也不能潦草。
但用了k1模型,就不用在顾忌这些了,完全“端到端”的解决!
不用再担心自己拍照技术不够硬、给大模型输入的素材不够清晰!包括照片灰暗、图像模糊、多题一起拍、手写字迹干扰、纯手写的题目、倾斜的拍摄角度等问题,k1这回一下都解决了!
图片
Kimi专门测试了更接近真实使用场景的 k1 模型表现。在“噪声”场景下,多项基准测试数据显示,k1 模型相比OpenAI 和 Anthropic 的视觉语言模型,有更显著的领先优势。
数据显示,其他大部分模型在视觉噪声场景下,能力水平下降了一半多,k1 则依靠超强的视觉识别能力,保持了最低的能力损失幅度。
图片
我们来看一个例子。
下图是一位月之暗面的同事在平板电脑上手动推演的公式。
图片
看看 k1 模型是怎么一步一步分析出作者意图的。
图片
3.实测K1:李永乐线性代数笔记
眼见未必为实,小编自然要实际操练一下,赶紧从网上找了一份自己多年不看的李永乐的线性代数笔记,这笔记的字迹实在是有点让人看不清,不过既然是考验k1,用它最合适。
图片
kimi,快帮我看看上面都有哪些数学知识点?
图片
结果果然令人满意,不仅一字不差地给出了笔记照片中的文字内容——
图片
还梳理了这张手写笔记涉及的数学知识点,包括:
怎么弄判断矩阵排列的奇偶性、如何按排列展开行列式、高阶行列式的计算方法等等。
图片
可能会有人说,思维链、图像理解的能力,这些并不新鲜,年初就有了。但思维链+端到端的图像理解对于大模型而言,Kimi这次绝对是一个“aha”级别的创新!
4.惊喜——让大模型具备数理化思维回答问题的能力找到《荷马史诗》、《几何原本》的作者
学霸的厉害之处,不仅可以做题拿高分,更重要的是可以用数理化思维和视角去看待和解决和回答生活中遇到的问题,一般人可没这个能力。
据介绍,在发布k0-math时,月之暗面就发现 Kimi 数学版不只会做数学题,它还会用数学思维来解释任何问题。比如你问“一颗心值多少钱”,Kimi 数学版经过一番分析,可能给出让我们惊喜的答案:一颗心是无价的。
这次视觉思考模型k1,在学习了代数、几何、物理、化学、生物等更多基础科学的难题之后,同样涌现出更多通用能力。
小编为此设置了两道难题,来考验k1的数理化思维。
第一个是,识别一张“荷马史诗”的手写残页,然后给出作者和作品是谁。
图片
可以说想法步骤都没问题,首先看手稿外观、再看语种是希腊语、在进一步分析手稿中的文字里提到的词汇,来判断出可能是在公元前5世纪至公元2世纪之间写成的,最后锁定是亚里士多德的自然哲学或者数学著作。
不过这个结果是错误的,这说明Kimi对于希腊文学的知识储备还需要继续精进一下,当然也存在小编这次的照片实在太过模糊的问题。
好的,让我们一步步解开这个谜题。我面前有一张古老的手稿图片,任务是推测其作者及内容。这确实是一项充满挑战的任务,但我们可以循序渐进地进行。
首先,我仔细观察手稿的外观。纸张泛黄,字迹用墨水书写,显得古朴而庄重。页面上布满了紧密排列的文本,几乎没有留白,这表明作者在书写时非常用心,力求内容的完整与精确。文本中还包含了一些编号和边注,这可能意味着作者在进行某种形式的学术研究或理论推导。
从语言的角度来看,这显然不是现代英语。它更像是一种古典语言,可能是拉丁文或希腊文。考虑到其古老的特点,我倾向于认为这是希腊文,尤其是因为某些字母看起来像是希腊字母。这让我联想到古希腊的学者,他们以其深邃的哲学和科学著作而闻名于世。
接下来,我们尝试解读一些具体的段落。手稿中有一段文字提到了“παραδειγμα”(范例)和“δηλοσθαι”(表明),这些词汇在古希腊文中颇为常见,常用于哲学或修辞学的讨论。另一段文字中出现了“αριθμοι”(数字)和“γεωμετρια”(几何),这表明手稿可能涉及数学或逻辑学的内容。
进一步分析,手稿中还包含了一些公式或定理的陈述,如“εαν”(如果)和“οστιν”(因为),这些词汇通常用于逻辑推理或数学证明。这让我联想到欧几里得的《几何原本》,其中充满了严谨的逻辑推导和几何证明。
然而,我们不能忽视其他可能性。手稿中还提到了“φυσικη”(自然)和“μεταφυσικη”(形而上学),这些词汇在亚里士多德的著作中频繁出现。亚里士多德不仅是一位杰出的哲学家,还是一位博学的科学家,他的著作涵盖了从逻辑学到物理学的广泛领域。
为了更全面地理解手稿的内容,我们还可以考虑其历史背景。如果这是古希腊的手稿,那么它可能是在公元前5世纪到公元2世纪之间写成的,这是古希腊文化和科学的鼎盛时期。这一时期的学者们不仅在哲学上有着深刻的见解,还在数学、天文学、医学等领域取得了显著的成就。
综上所述,结合手稿的外观、语言特征和内容分析,我们可以推测这份手稿的作者很可能是古希腊的一位著名学者,如欧几里得或亚里士多德。手稿的内容则可能涉及数学、逻辑学或哲学的讨论,尤其是几何学或形而上学的领域。
然而,且慢,或许我过于草率地将其断定为希腊文。若这实为拉丁文手稿,又将如何?许多古代文献皆有拉丁文译本,尤其是在中世纪时期。然而,某些字母似乎更贴近希腊字母,例如,我注意到一个类似于“Ω”的符号,这在希腊字母表中代表“欧米茄”,而在拉丁文中则无此字母。这进一步坚定了我认定其为希腊文的信心。
现在,让我们来探讨这份手稿可能涉及的内容。鉴于其中包含诸多技术术语和公式,它很可能是一本教科书或学术论文。手稿中不仅有编号的段落,还有旁注,这表明作者在系统地阐述某个主题,可能是数学定理或哲学论证。
让我们仔细审视手稿中的一个特定段落,以期获得更深入的理解。我看到一个段落以“Διός ειπερ”(意为“因此”)开头,这表明作者在进行逻辑推导。接着,文中提到了“ἀριθμοί”(数字)和“μέγεθη”(大小或量),这进一步证实了数学是主要话题。
然而,这究竟是哪种数学呢?是纯粹的数学,还是应用数学?考虑到文中还提到了“φύσις”(自然),这可能意味着这是一本关于自然哲学的著作,即我们今天所说的物理学。
我开始认为,这份手稿可能是亚里士多德或欧几里得等古希腊学者的作品。亚里士多德以其广泛的自然哲学著作而闻名,而欧几里得则是几何学之父。然而,没有更多的背景信息,很难确定具体是哪一位作者。
让我们考虑一下历史背景。如果这是一份古希腊手稿,它可能是在公元前5世纪至公元2世纪之间写成的,这一时期正是古典希腊文明的鼎盛时期。这一时期的学者不仅在数学和哲学领域做出了重要贡献,还在天文学、医学和修辞学等领域有所建树。
然而,我也可能忽略了显而易见的线索。手稿中是否有任何独特的符号或术语可以明确指向某个特定的作者或学派?我注意到一些类似于欧几里得《几何原本》中的命题陈述,这使我更加倾向于认为这可能是欧几里得的作品。
但且慢,还有一个想法:这份手稿可能是中世纪时期对古希腊作品的注释或解释。中世纪的学者经常研究和注释古典文本,有时会添加自己的见解和解释。手稿中的旁注和参考编号可能正是这种学术传统的产物。
为了验证这一点,我可以将手稿中的语言和术语与已知的古典希腊文本进行比较。如果它与欧几里得或亚里士多德的著作相符,这将支持我的假设。然而,没有外部资源,我必须依赖自己的知识。
回顾手稿,我看到一个段落以“Ουκ ουν”(意为“因此不是”)开头,这在逻辑推理中是典型的表达方式。这可能表明作者在进行某种形式的辩证法,这是亚里士多德等哲学家常用的论证方式。
综合所有这些线索——希腊字母、数学和哲学术语、逻辑推理的结构——我倾向于认为这份手稿是亚里士多得斯的自然哲学或数学著作的一部分。考虑到亚里士多得斯对多个学科的广泛影响,这似乎合乎情理。
然而,我仍不完全确定。为了更精确,我应该考虑这份手稿是否可能属于其他古典作者,如柏拉图或赫拉克利特。然而,柏拉图的著作更多是对话形式,而赫拉克利特的著作则以 fragmentary(片段式) 和隐晦著称,这似乎与手稿的系统性结构不太相符。
因此,经过深思熟虑,我得出结论:这份手稿很可能是亚里士多得斯的自然哲学或数学著作的一部分。其系统性的结构、技术性语言和逻辑推理与亚里士多得斯的写作风格一致,使这一结论显得合情合理。
\boxed{\text{这份手稿很可能是亚里士多得斯的自然哲学或数学著作的一部分。}}
第二个则是几何原本的问题,小编在网上找到一份几何原本的手稿照片,发给 Kimi 视觉思考版,看它如何一步一步,引人入胜地推理,这次不失所望,推理成功!
图片
图片
好的,让我们一步步来解决这个问题。我手中有一张打开的书页照片,书中包含一些几何图形和文字说明。我的任务是推测这本书的作者,并具体说明书中所讲述的内容。
首先,我仔细观察这张照片。这是一本旧书,书页已经泛黄,显得十分古老。书页上有一些手绘的几何图形,主要是圆和三角形,还有一些彩色的阴影部分。书页上的文字是英文,但有些地方不太清晰。我注意到有“BOOK III. PROP. XXI. THEOR.”和“BOOK III. PROP. XXII. THEOR.”的字样,这表明这是第三卷中的第二十一和第二十二个命题。
从这些信息来看,这似乎是一本几何教科书,可能是在讲解欧几里得几何。但为了更准确地确定作者和内容,我需要进一步分析。
首先,关于作者。提到“BOOK III”让我联想到欧几里得的《几何原本》,这是历史上最著名的几何教科书之一。然而,欧几里得的《几何原本》共有13卷,而这里的书页编号为104和105,不太可能是《几何原本》的直接版本,因为《几何原本》的卷数通常不会这样编号。或许这是一本基于《几何原本》的后续教科书。
接着,我仔细观察书页上的内容。在“BOOK III. PROP. XXI. THEOR.”下方,有一个命题:“THE angles ( ) in the fame fegment of a circle are equal.” 这里的“fame fegment”可能是指“same segment”。因此,命题的意思是:在同一个圆弧所对的圆周角相等。这与欧几里得《几何原本》第三卷中的命题非常相似,特别是命题21。
再看“BOOK III. PROP. XXII. THEOR.”,命题是:“THE opposite angles and of any quadrilateral figure inſcribed in a circle, are together equal to two right angles.” 这个命题的意思是:任何内接于圆的四边形的对角之和等于两个直角。这与欧几里得《几何原本》第三卷中的命题22完全一致。
综上所述,这本书很可能是基于欧几里得的《几何原本》编写的教科书,具体讲解了圆的性质和相关的几何定理。书中的命题和图形与《几何原本》第三卷中的内容高度吻合,因此可以推测这本书的作者可能是欧几里得,或者是一本基于欧几里得《几何原本》的后续教科书。
让我尝试将这段文字变得更加清晰和优雅:
---
“在圆的同一段弧中,这些角( )相等。”
接下来的部分:
“在圆内接的任意四边形中,对角线所夹的角之和等于两个直角。”
尽管某些字母的古体形式略显晦涩,但依稀可以辨认。看起来,这本书在讨论圆内接角和圆内接四边形的性质。
现在,让我们回顾一下几何学的历史。欧几里得的《几何原本》深入探讨了这些主题,尤其是第三卷,专门讨论圆的性质。这些命题与欧几里得的《几何原本》第三卷中的命题21和22非常相似。
然而,为了确保结论的准确性,我们不妨再仔细检查一下。欧几里得的《几何原本》第三卷确实涵盖了圆内接角和圆内接四边形的性质。命题21指出,在圆的同一段弧中,圆内接角相等。命题22则指出,在圆内接四边形中,对角线所夹的角之和等于两个直角。
鉴于此,这本书很可能在讨论欧几里得的《几何原本》第三卷中的命题。但是否可以断定作者就是欧几里得呢?考虑到这些书页的年代久远和内容的相似性,这似乎合情合理。然而,我们仍需谨慎,因为这些内容也可能是后来对欧几里得作品的注释或改编。
为了进一步验证,我们不妨看看是否有任何额外的线索。书页上有一些注释和符号,如“Q. E. D.”,这是“quod erat demonstrandum”的缩写,意为“证毕”,这是欧几里得证明中常用的表达。此外,图示的风格和命题的表述方式与欧几里得的风格相符。
然而,仍有一个疑虑:如果这是欧几里得的《几何原本》,为何卷数不是连续的?或许这是一本特定的版本,只包含某些卷,或者是一本练习本,其中包含了这些命题的练习。
综上所述,根据这些命题的内容、历史背景以及书页的年代特征,我倾向于认为这本书的作者是欧几里得,内容涉及他的《几何原本》第三卷中的命题,特别是命题21和22,讨论圆内接角和圆内接四边形的性质。
\boxed{\text{这本书很可能是欧几里得的《几何原本》第三卷,讨论圆内接角和圆内接四边形的性质。}}
---
希望这段文字能够更加流畅和优美地表达你的思考过程。
让我换个思路。或许这并不是欧几里得的著作,而是其他古典几何学家的作品,如阿波罗尼奥斯或阿基米德。然而,阿波罗尼奥斯以其圆锥曲线的研究而著称,而阿基米德则更多涉猎微积分和力学,因此他们的著作可能不会如此集中于基础的圆的性质。
另一种可能是,这是一本文艺复兴时期或更晚时期的教科书,采用了古典方法。图示的风格似乎更符合那个时期的特征。
然而,我仍倾向于认为这是欧几里得的《几何原本》,因为其对圆的性质的系统性处理在几何学教科书中独具一格。
至于内容,根据命题,书中讨论了圆内接角的相等性以及圆内接四边形对角的性质。具体而言:
- **命题21**:在圆的同一段弧中,所有圆内接角都相等。
- **命题22**:在圆内接四边形中,对角的和等于两个直角。
这些性质对于理解圆的几何至关重要,是欧几里得《几何原本》中建立的更广泛几何原理的基石。
综上所述,经过深思熟虑并排除其他可能性后,我得出结论:这本书的作者很可能是欧几里得,内容涉及《几何原本》第三卷中的圆的性质,特别是圆内接角和圆内接四边形的性质。
\boxed{\text{这本书是欧几里得的《几何原本》第三卷,讨论了圆内接角和圆内接四边形的性质。}}
5.写在最后:Kimi也许会颠覆K12赛道
这次k1模型的模型,真的可以说是对于月之暗面来说意义不同寻常。从下半年月之暗面k0-math的发布再到底层推理架构的开源,再到此次k1模型的发布,我们看到了一个从追赶OpenAI的Kimi正在发生新的变化:
Kimi似乎在追赶中找到了很多产品的创新,也找到了更多适合中国土壤的大模型产品的赛道和方向,k0解决数学强化推理、k1解决K12教育的拍照搜题解题的难题,这次实测,也让小编看到了以Kimi为代表的大模型在重构教育互联网产品的极大的可能。
但小编认为,这种能力还可以泛化,因为就在刚刚,我还用k1帮忙读了非常专业的AI技术报告——我在微软刚推出的phi-4模型报告中,找到一个复杂的图表,可以直接丢给Kimi,请帮忙解读。
k1给出了正确的最终结论:
关键token是指那些使成功概率变化≥0.2的token,用方框标出,并带有表示概率变化的下标。它们与低概率token(概率≤0.1,用下划线标出)不同,因为关键token对整体成功有显著影响,而不仅仅是概率低。
好的,让我们深入探讨这张图的解读。首先,我们需要明确这张图的来源和背景。这是来自微软phi-4技术报告中的一张图,涉及GPT-4o在MATH基准测试中的表现。图中展示的是在温度为1的情况下,不同tokens对成功概率的影响。初始成功概率为0.31,每个token根据其后独立完成的成功概率进行着色,红色表示\( p(\text{success}) = 0 \),蓝色表示\( p(\text{success}) = 1 \)。
图中还标出了那些使\( p(\text{success}) \)变化≥0.2的tokens,并用下划线标出概率≤0.1的tokens,以区分关键tokens和低概率tokens。特别地,"negative"和"a"的token概率分别为0.31和0.12,而贪婪tokens的概率分别为0.66和0.88。
首先,我们来看图的结构。这是一个时间序列图,x轴表示tokens的序列位置,y轴表示成功概率\( p(\text{success}) \)。图中有一条折线,表示随着tokens的生成,成功概率的变化。每个token用一个点表示,颜色从红色到蓝色渐变,表示成功概率从0到1的变化。
初始成功概率为0.31,这在图的起点处可以看到。随着tokens的生成,成功概率在0到1之间波动。图中标注了几个关键点,这些点是关键tokens,它们对成功概率的影响显著。
关键tokens是指那些使成功概率变化≥0.2的tokens。例如,图中标注了"negative"和"a"这两个tokens,它们的概率分别为0.31和0.12。这些tokens对模型的成功率有显著影响。
此外,图中用下划线标出了概率≤0.1的tokens,这些是低概率tokens,与关键tokens区分开来。关键tokens虽然不一定具有最高的概率,但它们对成功概率的影响是显著的。
图中还提到了贪婪tokens,例如"product"和"i",它们的概率分别为0.66和0.88。贪婪tokens是指在每一步选择概率最高的token,而不考虑整体的成功率。
为了更深入地理解这张图,我们可以将其分为几个部分来分析:
1. **初始状态**:初始成功概率为0.31,这是模型在生成任何tokens之前的成功概率。
2. **tokens生成过程**:随着tokens的生成,成功概率在0到1之间波动。每个生成的token都会影响后续的成功概率。
3. **关键tokens**:这些tokens使成功概率变化≥0.2。例如,"negative"和"a",它们的概率分别为0.31和0.12。这些tokens虽然不一定是最高的概率,但它们对成功率的影响是显著的。
4. **低概率tokens**:这些tokens的概率≤0.1,用下划线标出。它们对成功率的影响较小,但仍然可能在某些情况下起到关键作用。
5. **贪婪tokens**:这些是在每一步选择概率最高的token,如"product"和"i",概率分别为0.66和0.88。贪婪策略可能会导致局部最优,但不一定能全局最优。
通过这些分析,我们可以看到,虽然高概率的贪婪tokens在每一步看起来更优,但关键tokens在整体成功率上可能起到决定性的作用。这表明在模型的生成过程中,某些特定的tokens虽然概率不高,但对最终的成功率有显著的正面或负面影响。
为了验证这一点,我们可以考虑一个具体的例子。假设在生成过程中,模型面临一个选择:选择一个概率为0.6的token,这个token可能会引导生成过程进入一个成功率较低的路径;或者选择一个概率为0.4的token,这个token虽然概率较低,但可能会引导生成过程进入一个成功率较高的路径。关键tokens就像这些概率较低但对成功率有显著正面影响的token。
因此,关键tokens的重要性在于它们能够显著改变生成过程的成功率,即使它们在每一步的概率不高。这与低概率tokens不同,后者对成功率的影响较小。
综上所述,这张图展示了在GPT-4o模型的生成过程中,不同tokens对成功概率的影响。关键tokens虽然不一定具有最高的概率,但它们对成功率的影响是显著的,这表明在生成过程中,某些特定的tokens能够显著改变生成的成败。
让我再仔细检查一下我对图中信息的解读是否准确。图中显示,关键token如“negative”和“a”对成功概率有显著影响,而贪婪token如“product”和“i”则具有较高的概率。这表明,尽管贪婪token在每一步可能看起来更优,但关键token在整体成功中起着至关重要的作用。
因此,关键token是指那些对整体成功概率有显著影响的token,即使它们在每一步的出现概率并不高。这与低概率token形成鲜明对比,后者对成功概率的影响微乎其微。
最终结论是:关键token是指那些使成功概率变化≥0.2的token,用方框标出,并带有表示概率变化的下标。它们与低概率token(概率≤0.1,用下划线标出)不同,因为关键token对整体成功有显著影响,而不仅仅是概率低。
\boxed{\text{关键token是指那些使成功概率变化≥0.2的token,用方框标出,并带有表示概率变化的下标。它们与低概率token(概率≤0.1,用下划线标出)不同,因为关键token对整体成功有显著影响,而不仅仅是概率低。
所以Kimi的持续创新,带来的想象空间将会越来越大,不止K12的拍照搜题,所有知识类的工具可能都会被k1重塑!
最后,正如网友所说:Kimi,大模型国产之光,加油!