鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

AI领域的“新王”诞生! 马斯克发布Grok 3，赶超OpenAI o1和Deepseek R1！原创

发布于 2025-2-20 14:33

浏览

0收藏

在2月18日，马斯克旗下的xAI公司推出新一代大语言模型Grok 3。马斯克在发布会上自信满满地表示：“Grok 3比Grok 2强大一个数量级。”这话听起来有点夸张，但看看Grok 3的表现，还真不是吹牛。根据xAI工程师的说法，Grok 3的训练量是Grok 2的10倍，推理能力更是直接碾压了包括ChatGPT和DeepSeek在内的其他AI模型。马斯克甚至放话：“Grok 3是地球上最聪明的人工智能。”

Grok 3到底有多强？

咱们先来看一组数据。在数学能力测试（AIME'24）中，Grok 3拿到了52分，而DeepSeek-V3只有39分；科学知识评估（GPQA）中，Grok 3以75分领先DeepSeek-V3的65分；编程能力测试（LCB Oct-Feb）中，Grok 3更是以57分完胜DeepSeek-V3的36分。这差距，简直像是学霸和普通学生的区别。

AI领域的“新王”诞生! 马斯克发布Grok 3，赶超OpenAI o1和Deepseek R1！-AI.x社区

更让人惊讶的是，Grok 3在AIME 2025性能测试中的表现。它的推理和计算时间复合评分高达93分，精简版Grok-3 mini也有90分。相比之下，DeepSeek-R1只有75分，而Gemini-2 Flash Thinking更是只有54分。这差距，已经不是“碾压”能形容的了，简直是“降维打击”。

Grok 3的“杀手锏”：推理能力

马斯克特别强调了Grok 3的推理能力。在他看来，Grok 3的推理能力不仅超越了现有的AI模型，甚至可能成为AI领域的“颠覆者”。从测试数据来看，Grok 3在数学推理、科学推理和编程推理中都表现出了显著优势。特别是在数学推理中，Grok 3拿到了93分，而DeepSeek-R1只有73分。这差距，足以让Grok 3在AI领域站稳脚跟。

AI领域的“新王”诞生! 马斯克发布Grok 3，赶超OpenAI o1和Deepseek R1！-AI.x社区

Grok 3的“精简版”也不简单

除了Grok 3，xAI还推出了它的精简版——Grok-3 mini。虽然名字里带了个“mini”，但它的表现一点也不“迷你”。在AIME 2025测试中，Grok-3 mini拿到了90分，几乎和Grok 3持平。这意味着，即便是精简版，Grok-3 mini也能在复杂数学推理和计算效率方面表现出色。

AI领域的“新王”诞生! 马斯克发布Grok 3，赶超OpenAI o1和Deepseek R1！-AI.x社区

越来越“卷”了

从Grok 1.5到Grok 3，xAI的进步速度让人惊叹。而Grok 3的发布，无疑让AI领域的竞争更加白热化。DeepSeek在过去几个月里表现不俗，但在Grok 3面前，似乎还是稍逊一筹。这不禁让人感慨：AI领域的“内卷”，已经卷到了一个新高度！

本文转载自公众号AI 博物院作者：longyunfeigu

原文链接：https://mp.weixin.qq.com/s/aW_55mvTVySUqvn1eRTHJw

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

马斯克的 Grok AI 开源

jiecho • 5330浏览 • 0回复
马斯克突发新版大模型，牺牲特斯拉资源叫板OpenAI，Grok-2一手实测来了

Crystalcxt • 1281浏览 • 0回复
OpenAI 发布新模型 o1，能够推理复杂任务，在科学、编程和数学等领域更牛

AI洞察Insight • 1568浏览 • 0回复
OpenAI发布新模型：o1系列模型，更像理科生的模型

大语言模型论文跟踪 • 3110浏览 • 0回复
解密o1推理过程！DeepSeek-R1-Lite预览版上线

kede96 • 2092浏览 • 0回复
阿里发布类o1模型QWQ，可自我反思纠错，实测数学推理远超o1、DS-R1，人人免费

51CTO技术栈 • 1844浏览 • 0回复
马斯克又又又跳票了！说好年底推出的“重大飞跃”的Grok 3，迟迟未现身！

51CTO技术栈 • 1289浏览 • 0回复
DeepSeek R1横空出世，超越OpenAI o1，教你用Ollama跑起来

小虎哦哦 • 1.3w浏览 • 0回复
DeepSeek-AI 发布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 • 2621浏览 • 0回复
Kimik1.5、DeepSeek-V3 大战 OpenAI o1，谁能笑到最后？

智驻未来 • 4463浏览 • 0回复
基于 DeepSeek R1 和 Ollama 开发 RAG 系统

玄姐聊AGI • 2573浏览 • 0回复
OpenAI o3-mini 干翻了 DeepSeek R1？

PyTorch研习社 • 1148浏览 • 0回复
DeepSeek R1 Vs OpenAI o1！全球顶级推理模型训练技术对比大解密！

51CTO技术栈 • 3541浏览 • 0回复
OpenAI揭示o3的推理过程，以弥合与DeepSeek-R1的差距

51CTO内容精选 • 1043浏览 • 0回复
大模型对决：DeepSeek R1与o3-mini

丢翅膀的鱼 • 1259浏览 • 0回复
DeepSeek R1 全系列模型部署指南

芝士AI吃鱼 • 4389浏览 • 0回复
Grok 3 与 DeepSeek-R1 是怎么学会思考的？

机器学习与数学 • 1856浏览 • 0回复
Vision-R1：多模态领域的DeepSeek R1-Zero，7B参数比肩OpenAI O1

Syrupup • 866浏览 • 0回复
DeepSeek R1 & R2 技术原理

ceesoft • 479浏览 • 1回复

LV.2

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

13

帖子

119

声望

0

粉丝

关注

最近发布

热门推荐

五分钟读懂Manus平替：深度解析OpenManus 如何重新定义Multi Agent? 0回复

RAG项目必备！文档解析神器MinerU：2.5万星标！支持GPU加速，轻松应对复杂文档 0回复

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

上一篇： Deepseek算命？AI竟然能预测人生！我试了，结果让我诧异.....

下一篇：传统分块已死？Agentic Chunking拯救语义断裂，实测RAG准确率飙升40%，LLM开发者必看！

社区精华内容

目录

Grok 3到底有多强？
Grok 3的“杀手锏”：推理能力
Grok 3的“精简版”也不简单
越来越“卷”了

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载