Grok-2测试版来的,让人猝不及防。
刚刚,Xai官方丢出一篇博文,官宣Grok-2测试版正式发布。
而且,一发就是两弹——Grok-2 + 轻量级Grok-2 mini。
马斯克称,Grok进展的速度惊人,只能用坐上火箭来形容。
相较于上一代Grok-1.5,Grok-2取得了显著的进步,在聊天、编码、推理方面,再次刷新SOTA。
大模型竞技场LMSYS上,Grok-2早期版本sus-column-r在总榜上位列第三,可与GPT-4o抗衡,碾压Claude 3.5 Sonnet。
此外,Grok-2在「编码」和「数学」榜单位列第2,Hard Prompts位列第4。
网友:马斯克的Grok已经是榜上第五个GPT-4级模型了,保不齐最终版哪天就超到了TOP 1
目前,Grok-2和Grok-2 mini均在𝕏上开启了测试。本月底,两个模型的API将会放出。
值得一提的是,X平台这次还融合了爆火的Flux AI生图能力。
这一点,今早就有网友提前放出了预告。
就看Grok生成美女的能力,真有点TED演讲者那味儿了。
下面这位网友用Luma和Grok 2.0结合后,大赞做出的视频简直就像电影截图一样。
Grok-2能力如何?
Grok-2其实早就在我们身边了,只是没有人得知。
如前所述,早期版本sus-column-r在LMSYS平台,接受了多种基准的评测。
在LLM排行榜中,Grok-2整体Elo评分(1281分),优于Claude 3.5和GPT-4。
就胜率来看,Grok-2远远领先DeepSeek V2、Claude 3 Opus,相较于指令微调版的Llama 3.1超大杯,胜率为58%。
与GPT-4o和GPT-4o mini几乎打成平手。
在Xai内部,研究人员采用了类似的流程,以评估模型。
这里,他们训练了专门的AI系统——AI导师,在模拟Grok真实世界交互的任务中,与新模型进行互动。
每次互动中,AI导师会收到Grok生成的2个响应,并根据指南中列出的特定标准,选择更优的响应。
实验过程中,研究团队重点评估了模型在两个关键领域的能力:
一是遵循指令,二是提供准确、事实性的信息。
结果发现,Grok-2利用检索内容进行推理,以及工具使用方面,得到了大幅提升。
比如,它可以正确识别缺失信息、推理事件的顺序,甚至剔除无关的帖子。
可以看得出,就AI导师的偏好来看,Grok-2胜券在握。
接下来,具体看看Grok-2在不同基准上的表现吧。
性能评估
研究人员在一系列基准测试中评估了Grok-2,包括推理、阅读理解、数学、科学、写代码。
宏观讲,相较于之前的Grok-1.5模型,Grok-2和Grok-2 mini都得到了显著的改进。
下图中可以看出,Grok-2和Grok-2 mini在研究生级别科学知识(GPQA)、数学竞赛问题(MATH),代码(HumanEval)领域,显著提分10%-20%。
而且,另一个值得关注的现象是,Grok-2 mini是小参数版本的Grok-2。
但是,Grok-2 mini的性能丝毫不输,几乎接近大模型的性能,可见并没有因为参数减少,而缩减模型的性能。
与前沿模型相比,Grok-2在编码、数学、通用知识领域,与GPT-4o、Llama 3 405B有一定的差距,但结果非常接近。
它远远超过了GPT-4 Turno、Claude 3 Opus基准的性能。
另外,在视觉化任务中,比如视觉化数学推理(MathVista)和基于文档的问题回答(DocVQA)上,Grok-2表现出色。
令人惊喜的是,经典的「strawberry难题」,也被Grok 2.0一举攻克。
在𝕏上的体验
当然了,Grok模型的每次迭代,就是为了更好地服务𝕏。
经过几个月的不断改进,全面升级之后的Grok,也有了新的界面和功能。
所有的Premium和Premium+用户,都可以访问这次新推出的Grok-2和Grok-2 mini。
作为𝕏上最强的AI助手,Grok-2具备文本和视觉理解的高级能力,并集成了来自平台的实时信息。
Grok-2 mini则是一个规模较小但功能强大的模型,提供了速度和质量之间的最佳平衡。
与前辈相比,Grok-2在广泛的任务中更直观、可控且多功能,无论是寻找答案、协作写作还是解决编程任务。
最近FLUX的爆火,让全网都见识到了这款文生图模型的强劲实力。
如今,xAI正在与推出它的「Black Forest Labs」合作,尝试利用FLUX.1来增强Grok在𝕏上的功能。
网友实测生图
拿到测试资格的网友们,已经迫不及待地上手测试了。
生成乔治华盛顿这样人物的图片,果然FLUX最拿手。
在吃热狗的马斯克,有点儿不像本尊。
说到马斯克,下面这个海盗版大家觉得如何?
还有角斗士马斯克,以及马斯克在火星。
此外,也有网友生成了一张小扎拖着腮帮子眉头紧锁的照片。
这位网友表示,Grok 2.0的生图功能比Llama要好,而且没有「愚蠢的护栏」。
宫殿里的豪车、美少女战士、一座雕塑、魔法书院,Grok都拿捏了。
看得出来,这位网友主打的就是一个精致。
加菲猫头戴红帽,附上「Make Mondays Great Again」,可见Grok在生成带有字体的图像时,也非常精致。
和聊天一样,Grok生图还可以生成两种不同模式的,简言之两种风格的图像——趣味和常规。
网友分别测试了这两种模式,趣味模式下Grok的自画像,更像是一位故事中的圣者。
而常规模式下的自画像,反倒有些搞笑了。
它竟把自己设想成了,(类似)一份惠灵顿牛排。
API即将上线
除了能够在𝕏上体验之外,Grok-2和Grok-2 mini还将在8月底正式上线企业API平台。
xAI表示,Grok-2的API将基于新的定制技术栈。
一方面是支持多区域推理部署,可以实现全球范围的低延迟访问。
另一方面是支持增强的安全功能,例如强制多因素认证(如使用Yubikey、Apple TouchID或TOTP),丰富的流量统计,以及高级计费分析(包括详细的数据导出)等等。
此外,xAI还提供了一个管理API,让开发者和企业可以将团队、用户和计费管理集成到现有的内部工具和服务中。
接下来是什么?
自从2023年11月Grok-1发布以来,xAI一直在以惊人的速度发展。
现在的Grok-2和Grok-2 mini,已经具备了更强的搜索能力和改进的回复功能,并且可以对𝕏的帖子进行更深入的洞察。
不久之后,xAI还会𝕏和API上发布Grok的另一个核心体验——多模态理解预览版。
随着Grok-2的推出,xAI再一次站到了AI开发的前沿。并且,有了新集群的加持,模型的推理能力也将得到进一步加强。