
AI领域的“新王”诞生! 马斯克发布Grok 3,赶超OpenAI o1和Deepseek R1! 原创
在2月18日,马斯克旗下的xAI公司推出新一代大语言模型Grok 3。马斯克在发布会上自信满满地表示:“Grok 3比Grok 2强大一个数量级。”这话听起来有点夸张,但看看Grok 3的表现,还真不是吹牛。根据xAI工程师的说法,Grok 3的训练量是Grok 2的10倍,推理能力更是直接碾压了包括ChatGPT和DeepSeek在内的其他AI模型。马斯克甚至放话:“Grok 3是地球上最聪明的人工智能。”
Grok 3到底有多强?
咱们先来看一组数据。在数学能力测试(AIME'24)中,Grok 3拿到了52分,而DeepSeek-V3只有39分;科学知识评估(GPQA)中,Grok 3以75分领先DeepSeek-V3的65分;编程能力测试(LCB Oct-Feb)中,Grok 3更是以57分完胜DeepSeek-V3的36分。这差距,简直像是学霸和普通学生的区别。
更让人惊讶的是,Grok 3在AIME 2025性能测试中的表现。它的推理和计算时间复合评分高达93分,精简版Grok-3 mini也有90分。相比之下,DeepSeek-R1只有75分,而Gemini-2 Flash Thinking更是只有54分。这差距,已经不是“碾压”能形容的了,简直是“降维打击”。
Grok 3的“杀手锏”:推理能力
马斯克特别强调了Grok 3的推理能力。在他看来,Grok 3的推理能力不仅超越了现有的AI模型,甚至可能成为AI领域的“颠覆者”。从测试数据来看,Grok 3在数学推理、科学推理和编程推理中都表现出了显著优势。特别是在数学推理中,Grok 3拿到了93分,而DeepSeek-R1只有73分。这差距,足以让Grok 3在AI领域站稳脚跟。
Grok 3的“精简版”也不简单
除了Grok 3,xAI还推出了它的精简版——Grok-3 mini。虽然名字里带了个“mini”,但它的表现一点也不“迷你”。在AIME 2025测试中,Grok-3 mini拿到了90分,几乎和Grok 3持平。这意味着,即便是精简版,Grok-3 mini也能在复杂数学推理和计算效率方面表现出色。
越来越“卷”了
从Grok 1.5到Grok 3,xAI的进步速度让人惊叹。而Grok 3的发布,无疑让AI领域的竞争更加白热化。DeepSeek在过去几个月里表现不俗,但在Grok 3面前,似乎还是稍逊一筹。这不禁让人感慨:AI领域的“内卷”,已经卷到了一个新高度!
本文转载自公众号AI 博物院 作者:longyunfeigu
原文链接:https://mp.weixin.qq.com/s/aW_55mvTVySUqvn1eRTHJw
