马斯克突然「发射」Grok-2 !𝕏爆火AI生图网友玩疯,数学编码追平GPT-4o

人工智能 新闻
xAI连发两款模型Grok-2和Grok-2 mini,相较上一代在编码、数学、推理方面性能大涨,而且在LMSYS总榜上与GPT-4o不相上下。最让人兴奋的是,最强AI生图Flux能力已经在𝕏上线了。

Grok-2测试版来的,让人猝不及防。

刚刚,Xai官方丢出一篇博文,官宣Grok-2测试版正式发布。

而且,一发就是两弹——Grok-2 + 轻量级Grok-2 mini。

图片

马斯克称,Grok进展的速度惊人,只能用坐上火箭来形容。

图片

相较于上一代Grok-1.5,Grok-2取得了显著的进步,在聊天、编码、推理方面,再次刷新SOTA。

大模型竞技场LMSYS上,Grok-2早期版本sus-column-r在总榜上位列第三,可与GPT-4o抗衡,碾压Claude 3.5 Sonnet。

图片

此外,Grok-2在「编码」和「数学」榜单位列第2,Hard Prompts位列第4。

图片

网友:马斯克的Grok已经是榜上第五个GPT-4级模型了,保不齐最终版哪天就超到了TOP 1

目前,Grok-2和Grok-2 mini均在𝕏上开启了测试。本月底,两个模型的API将会放出。

值得一提的是,X平台这次还融合了爆火的Flux AI生图能力。

图片

这一点,今早就有网友提前放出了预告。

图片

就看Grok生成美女的能力,真有点TED演讲者那味儿了。

图片

下面这位网友用Luma和Grok 2.0结合后,大赞做出的视频简直就像电影截图一样。

图片

图片

Grok-2能力如何?

Grok-2其实早就在我们身边了,只是没有人得知。

如前所述,早期版本sus-column-r在LMSYS平台,接受了多种基准的评测。

在LLM排行榜中,Grok-2整体Elo评分(1281分),优于Claude 3.5和GPT-4。

图片

就胜率来看,Grok-2远远领先DeepSeek V2、Claude 3 Opus,相较于指令微调版的Llama 3.1超大杯,胜率为58%。

与GPT-4o和GPT-4o mini几乎打成平手。

图片

在Xai内部,研究人员采用了类似的流程,以评估模型。

这里,他们训练了专门的AI系统——AI导师,在模拟Grok真实世界交互的任务中,与新模型进行互动。

每次互动中,AI导师会收到Grok生成的2个响应,并根据指南中列出的特定标准,选择更优的响应。

实验过程中,研究团队重点评估了模型在两个关键领域的能力:

一是遵循指令,二是提供准确、事实性的信息。

结果发现,Grok-2利用检索内容进行推理,以及工具使用方面,得到了大幅提升。

比如,它可以正确识别缺失信息、推理事件的顺序,甚至剔除无关的帖子。

可以看得出,就AI导师的偏好来看,Grok-2胜券在握。

图片

接下来,具体看看Grok-2在不同基准上的表现吧。

性能评估

研究人员在一系列基准测试中评估了Grok-2,包括推理、阅读理解、数学、科学、写代码。

宏观讲,相较于之前的Grok-1.5模型,Grok-2和Grok-2 mini都得到了显著的改进。

下图中可以看出,Grok-2和Grok-2 mini在研究生级别科学知识(GPQA)、数学竞赛问题(MATH),代码(HumanEval)领域,显著提分10%-20%。

而且,另一个值得关注的现象是,Grok-2 mini是小参数版本的Grok-2。

但是,Grok-2 mini的性能丝毫不输,几乎接近大模型的性能,可见并没有因为参数减少,而缩减模型的性能。

图片

与前沿模型相比,Grok-2在编码、数学、通用知识领域,与GPT-4o、Llama 3 405B有一定的差距,但结果非常接近。

它远远超过了GPT-4 Turno、Claude 3 Opus基准的性能。

另外,在视觉化任务中,比如视觉化数学推理(MathVista)和基于文档的问题回答(DocVQA)上,Grok-2表现出色。

令人惊喜的是,经典的「strawberry难题」,也被Grok 2.0一举攻克。

图片

在𝕏上的体验

当然了,Grok模型的每次迭代,就是为了更好地服务𝕏。

经过几个月的不断改进,全面升级之后的Grok,也有了新的界面和功能。

图片

所有的Premium和Premium+用户,都可以访问这次新推出的Grok-2和Grok-2 mini。

作为𝕏上最强的AI助手,Grok-2具备文本和视觉理解的高级能力,并集成了来自平台的实时信息。

Grok-2 mini则是一个规模较小但功能强大的模型,提供了速度和质量之间的最佳平衡。

与前辈相比,Grok-2在广泛的任务中更直观、可控且多功能,无论是寻找答案、协作写作还是解决编程任务。

图片

图片

最近FLUX的爆火,让全网都见识到了这款文生图模型的强劲实力。

如今,xAI正在与推出它的「Black Forest Labs」合作,尝试利用FLUX.1来增强Grok在𝕏上的功能。

网友实测生图

拿到测试资格的网友们,已经迫不及待地上手测试了。

图片

生成乔治华盛顿这样人物的图片,果然FLUX最拿手。

图片

在吃热狗的马斯克,有点儿不像本尊。

图片

说到马斯克,下面这个海盗版大家觉得如何?

图片

还有角斗士马斯克,以及马斯克在火星。

图片

此外,也有网友生成了一张小扎拖着腮帮子眉头紧锁的照片。

图片

这位网友表示,Grok 2.0的生图功能比Llama要好,而且没有「愚蠢的护栏」。

图片

宫殿里的豪车、美少女战士、一座雕塑、魔法书院,Grok都拿捏了。

图片

看得出来,这位网友主打的就是一个精致。

图片

加菲猫头戴红帽,附上「Make Mondays Great Again」,可见Grok在生成带有字体的图像时,也非常精致。

图片

和聊天一样,Grok生图还可以生成两种不同模式的,简言之两种风格的图像——趣味和常规。

图片

网友分别测试了这两种模式,趣味模式下Grok的自画像,更像是一位故事中的圣者。

图片

而常规模式下的自画像,反倒有些搞笑了。

它竟把自己设想成了,(类似)一份惠灵顿牛排。

图片

API即将上线

除了能够在𝕏上体验之外,Grok-2和Grok-2 mini还将在8月底正式上线企业API平台。

xAI表示,Grok-2的API将基于新的定制技术栈。

一方面是支持多区域推理部署,可以实现全球范围的低延迟访问。

另一方面是支持增强的安全功能,例如强制多因素认证(如使用Yubikey、Apple TouchID或TOTP),丰富的流量统计,以及高级计费分析(包括详细的数据导出)等等。

此外,xAI还提供了一个管理API,让开发者和企业可以将团队、用户和计费管理集成到现有的内部工具和服务中。

图片

接下来是什么?

自从2023年11月Grok-1发布以来,xAI一直在以惊人的速度发展。

现在的Grok-2和Grok-2 mini,已经具备了更强的搜索能力和改进的回复功能,并且可以对𝕏的帖子进行更深入的洞察。

不久之后,xAI还会𝕏和API上发布Grok的另一个核心体验——多模态理解预览版。

随着Grok-2的推出,xAI再一次站到了AI开发的前沿。并且,有了新集群的加持,模型的推理能力也将得到进一步加强。

责任编辑:张燕妮 来源: 新智元
相关推荐

2024-08-15 11:15:20

2023-12-12 17:53:27

马斯克AIChatGPT

2023-12-13 08:46:33

人工智能ChatGPT机器人

2023-07-22 13:47:57

开源项目

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能

2024-03-18 15:00:48

Grok现已开源Grok-1混合专家模型

2024-05-27 13:05:20

2024-06-11 07:03:00

大模型开源Qwen2

2024-05-15 09:13:37

GPT-4oAI

2024-03-18 14:17:06

大模型开源人工智能

2024-03-29 12:48:00

数据训练

2024-06-21 09:51:17

2024-04-01 00:00:00

马斯克Grok 1.5HumanEval

2024-09-02 08:30:00

大模型AI

2022-12-12 13:54:16

2023-11-06 10:41:46

ChatGPT马斯克

2023-12-12 13:57:00

GPT-3.5MistralAI

2023-03-29 13:58:08

GPT-4AI 开发

2023-05-29 13:59:00

GPTOpenAI监督微调

2023-02-20 13:59:32

点赞
收藏

51CTO技术栈公众号