鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

账号设置退出

马斯克突然「发射」Grok-2 ！𝕏爆火AI生图网友玩疯，数学编码追平GPT-4o

作者：新智元 2024-08-15 10:07:03

人工智能新闻

xAI连发两款模型Grok-2和Grok-2 mini，相较上一代在编码、数学、推理方面性能大涨，而且在LMSYS总榜上与GPT-4o不相上下。最让人兴奋的是，最强AI生图Flux能力已经在𝕏上线了。

Grok-2测试版来的，让人猝不及防。

刚刚，Xai官方丢出一篇博文，官宣Grok-2测试版正式发布。

而且，一发就是两弹——Grok-2 + 轻量级Grok-2 mini。

马斯克称，Grok进展的速度惊人，只能用坐上火箭来形容。

相较于上一代Grok-1.5，Grok-2取得了显著的进步，在聊天、编码、推理方面，再次刷新SOTA。

大模型竞技场LMSYS上，Grok-2早期版本sus-column-r在总榜上位列第三，可与GPT-4o抗衡，碾压Claude 3.5 Sonnet。

此外，Grok-2在「编码」和「数学」榜单位列第2，Hard Prompts位列第4。

网友：马斯克的Grok已经是榜上第五个GPT-4级模型了，保不齐最终版哪天就超到了TOP 1

目前，Grok-2和Grok-2 mini均在𝕏上开启了测试。本月底，两个模型的API将会放出。

值得一提的是，X平台这次还融合了爆火的Flux AI生图能力。

这一点，今早就有网友提前放出了预告。

就看Grok生成美女的能力，真有点TED演讲者那味儿了。

下面这位网友用Luma和Grok 2.0结合后，大赞做出的视频简直就像电影截图一样。

Grok-2能力如何？

Grok-2其实早就在我们身边了，只是没有人得知。

如前所述，早期版本sus-column-r在LMSYS平台，接受了多种基准的评测。

在LLM排行榜中，Grok-2整体Elo评分（1281分），优于Claude 3.5和GPT-4。

就胜率来看，Grok-2远远领先DeepSeek V2、Claude 3 Opus，相较于指令微调版的Llama 3.1超大杯，胜率为58%。

与GPT-4o和GPT-4o mini几乎打成平手。

在Xai内部，研究人员采用了类似的流程，以评估模型。

这里，他们训练了专门的AI系统——AI导师，在模拟Grok真实世界交互的任务中，与新模型进行互动。

每次互动中，AI导师会收到Grok生成的2个响应，并根据指南中列出的特定标准，选择更优的响应。

实验过程中，研究团队重点评估了模型在两个关键领域的能力：

一是遵循指令，二是提供准确、事实性的信息。

结果发现，Grok-2利用检索内容进行推理，以及工具使用方面，得到了大幅提升。

比如，它可以正确识别缺失信息、推理事件的顺序，甚至剔除无关的帖子。

可以看得出，就AI导师的偏好来看，Grok-2胜券在握。

接下来，具体看看Grok-2在不同基准上的表现吧。

性能评估

研究人员在一系列基准测试中评估了Grok-2，包括推理、阅读理解、数学、科学、写代码。

宏观讲，相较于之前的Grok-1.5模型，Grok-2和Grok-2 mini都得到了显著的改进。

下图中可以看出，Grok-2和Grok-2 mini在研究生级别科学知识（GPQA）、数学竞赛问题（MATH），代码（HumanEval）领域，显著提分10%-20%。

而且，另一个值得关注的现象是，Grok-2 mini是小参数版本的Grok-2。

但是，Grok-2 mini的性能丝毫不输，几乎接近大模型的性能，可见并没有因为参数减少，而缩减模型的性能。

与前沿模型相比，Grok-2在编码、数学、通用知识领域，与GPT-4o、Llama 3 405B有一定的差距，但结果非常接近。

它远远超过了GPT-4 Turno、Claude 3 Opus基准的性能。

另外，在视觉化任务中，比如视觉化数学推理（MathVista）和基于文档的问题回答（DocVQA）上，Grok-2表现出色。

令人惊喜的是，经典的「strawberry难题」，也被Grok 2.0一举攻克。

在𝕏上的体验

当然了，Grok模型的每次迭代，就是为了更好地服务𝕏。

经过几个月的不断改进，全面升级之后的Grok，也有了新的界面和功能。

所有的Premium和Premium+用户，都可以访问这次新推出的Grok-2和Grok-2 mini。

作为𝕏上最强的AI助手，Grok-2具备文本和视觉理解的高级能力，并集成了来自平台的实时信息。

Grok-2 mini则是一个规模较小但功能强大的模型，提供了速度和质量之间的最佳平衡。

与前辈相比，Grok-2在广泛的任务中更直观、可控且多功能，无论是寻找答案、协作写作还是解决编程任务。

最近FLUX的爆火，让全网都见识到了这款文生图模型的强劲实力。

如今，xAI正在与推出它的「Black Forest Labs」合作，尝试利用FLUX.1来增强Grok在𝕏上的功能。

网友实测生图

拿到测试资格的网友们，已经迫不及待地上手测试了。

生成乔治华盛顿这样人物的图片，果然FLUX最拿手。

在吃热狗的马斯克，有点儿不像本尊。

说到马斯克，下面这个海盗版大家觉得如何？

还有角斗士马斯克，以及马斯克在火星。

此外，也有网友生成了一张小扎拖着腮帮子眉头紧锁的照片。

这位网友表示，Grok 2.0的生图功能比Llama要好，而且没有「愚蠢的护栏」。

宫殿里的豪车、美少女战士、一座雕塑、魔法书院，Grok都拿捏了。

看得出来，这位网友主打的就是一个精致。

加菲猫头戴红帽，附上「Make Mondays Great Again」，可见Grok在生成带有字体的图像时，也非常精致。

和聊天一样，Grok生图还可以生成两种不同模式的，简言之两种风格的图像——趣味和常规。

网友分别测试了这两种模式，趣味模式下Grok的自画像，更像是一位故事中的圣者。

而常规模式下的自画像，反倒有些搞笑了。

它竟把自己设想成了，（类似）一份惠灵顿牛排。

API即将上线

除了能够在𝕏上体验之外，Grok-2和Grok-2 mini还将在8月底正式上线企业API平台。

xAI表示，Grok-2的API将基于新的定制技术栈。

一方面是支持多区域推理部署，可以实现全球范围的低延迟访问。

另一方面是支持增强的安全功能，例如强制多因素认证（如使用Yubikey、Apple TouchID或TOTP），丰富的流量统计，以及高级计费分析（包括详细的数据导出）等等。

此外，xAI还提供了一个管理API，让开发者和企业可以将团队、用户和计费管理集成到现有的内部工具和服务中。

接下来是什么？

自从2023年11月Grok-1发布以来，xAI一直在以惊人的速度发展。

现在的Grok-2和Grok-2 mini，已经具备了更强的搜索能力和改进的回复功能，并且可以对𝕏的帖子进行更深入的洞察。

不久之后，xAI还会𝕏和API上发布Grok的另一个核心体验——多模态理解预览版。

随着Grok-2的推出，xAI再一次站到了AI开发的前沿。并且，有了新集群的加持，模型的推理能力也将得到进一步加强。

责任编辑：张燕妮来源：新智元

51CTO技术栈公众号

业务
速览

媒体

51CTO CIOAge HC3i

社区

51CTO博客鸿蒙开发者社区 AI.x社区

教育

51CTO学堂精培企业培训 CTO训练营