马斯克突发Grok 1.5!上下文长度至128k、HumanEval得分超GPT-4

人工智能
新版本Grok有啥突破?一是上下文长度飙升,从8192增长到128k,和GPT-4齐平。二是推理性能大幅提升,数学能力直接涨点50%之多、HumanEval数据集上得分超过GPT-4。

就在刚刚,马斯克Grok大模型宣布重大升级。

难怪之前突然开源了Grok-1,因为他有更强的Grok-1.5了,主打推理能力。

来自xAI的官方推送啥也没说,直接甩链接。主打一个“字少事大”

图片图片

新版本Grok有啥突破?

一是上下文长度飙升,从8192增长到128k,和GPT-4齐平。

二是推理性能大幅提升,数学能力直接涨点50%之多、HumanEval数据集上得分超过GPT-4。

消息一出,评论区立刻就躁起来了。

图片图片

具体跑分结果如何,咱们立马来看。

Grok-1.5来了

首先,对于上下文窗口。

这次是一把直接提升到之前的16倍,来到128k量级。

这也就意味着Grok可以处理更长和更复杂的提示,同时保持其遵循指令的能力。

在“大海捞针”(NIAH)测试中,Grok-1.5在128K token的上下文中完美检索嵌入的文本。

整个图一水儿的蓝色(100%的检索深度):

图片图片

其次,推理方面。

Grok-1.5处理编程和数学相关任务的能力大幅提升,全面超越Grok-1、Mistral Large、Claude 2。

数学方面,Grok-1.5在MATH基准测试上得分50.6%,超越中杯Claude 3 Sonnet;GSM8K上得分90%。

编程方面,Grok-1.5在HumanEval基准测试上得分74.1%,超越中杯Claude 3 Sonnet、Gemini Pro1.5、GPT-4,仅次于大杯Claude 3 Opus。

图片图片

看起来,Grok这次的实力也是不可小觑。

Grok系列与其他大模型相比还有一个特色,不使用通用的Python语言+Pytorch框架。

据官方介绍,Grok 1.5采用分布式训练架构,使用Rust、JAX+Kubernetes构建。

为了提高训练可靠性和维持正常运行时间,团队提出了自定义训练协调器,可自动检测到有问题的节点,然后剔除。

除此之外,他们还优化了checkpointing、数据加载和训练重启等流程,最大限度地减少故障停机时间。

这,才速速有了现在的Grok 1.5~

更多信息官方也暂时还没有披露。

可以确定的是,新版本未来几天会先推送给早期测试者。并按照“老规矩”,很快将在𝕏平台上线。

网友们表示:Grok进步真的相当迅速。

图片图片

不提别的,Grok新版本各指标已经全面超越Claude 2。而xAI成立仅一年,只比Anthropic落后9个月。因此:

打赌12个月后,xAI完全有可能成为领导者。

图片图片

还有人评价更高,认为马斯克这是发了另一个“GPT-4等效模型”,喊着:

OpenAI搞快点啊。

图片图片

你期待新版本的Grok吗?

参考链接:[1]https://twitter.com/xai/status/1773510159740063860[2]https://x.ai/blog/grok-1.5

责任编辑:武晓燕 来源: 量子位
相关推荐

2024-03-29 12:48:00

数据训练

2024-03-29 14:04:00

模型训练

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能

2023-11-17 18:06:15

2023-12-06 13:59:00

数据训练

2023-08-27 14:44:04

代码编程语言

2024-09-02 08:30:00

大模型AI

2023-12-13 08:46:33

人工智能ChatGPT机器人

2023-11-13 08:03:33

2023-05-19 10:16:27

AIGPT-4

2024-04-10 14:07:00

数据AI

2023-11-07 08:03:43

AIGPT-4

2023-07-11 10:02:23

2024-02-29 12:49:37

2023-03-29 13:58:08

GPT-4AI 开发

2024-04-12 17:41:28

GPT-4TurboClaude

2023-03-20 13:30:00

GPT-4AI

2024-07-19 12:45:23

2023-08-14 08:04:13

2023-10-21 12:53:27

数据研究
点赞
收藏

51CTO技术栈公众号