Grok多模态大模型Grok-1.5V来了！原创

发布于 2024-4-15 14:55

浏览

0收藏

Grok-1.5V是下xAI第一代多模态大模型，除了其强大的文本能力外，Grok现在还可以处理各种各样的视觉信息，包括文档、图表、示意图、截图和照片。Grok-1.5V即将提供给早期测试人员和现有的Grok用户使用。

能力

Grok-1.5V在多个领域与现有多模态大模型具有竞争力，从多学科推理到理解文档、科学图表、截图和照片。Grok在新RealWorldQA基准测试中表现优异，该测试衡量了对现实世界空间理解的能力。对于下面的所有数据集，在零提示的情况下评估Grok，不使用思维链的提示。

Grok多模态大模型Grok-1.5V来了！-AI.x社区

示例1：看图表写代码

Grok多模态大模型Grok-1.5V来了！-AI.x社区

示例2：计算卡路里

Grok多模态大模型Grok-1.5V来了！-AI.x社区

示例3：从一幅图画到一个睡前故事

Grok多模态大模型Grok-1.5V来了！-AI.x社区

示例4：解释一个网络迷因

Grok多模态大模型Grok-1.5V来了！-AI.x社区

示例5：将表格转换为 CSV 格式

Grok多模态大模型Grok-1.5V来了！-AI.x社区

示例6：帮助处理露台上腐烂的木材

Grok多模态大模型Grok-1.5V来了！-AI.x社区

示例7：解决编程问题

Grok多模态大模型Grok-1.5V来了！-AI.x社区

实现真实世界理解

为了开发出有用的真实世界人工智能助手，提升模型对物理世界的理解至关重要。为了实现这一目标，研究人员引入了一个新的基准测试，RealWorldQA。该基准旨在评估多模式模型的基本真实世界空间理解能力。尽管当前基准测试中的许多示例对人类来说相对容易，但它们常常对前沿模型构成挑战。

Grok多模态大模型Grok-1.5V来了！-AI.x社区

RealWorldQA的初始发布包含超过700张图像，每张图像都附带一个问题和易于验证的答案。该数据集包含了从车辆中获取的匿名图像，以及其他真实世界的图像。后续xAI将随着多模态模型的改进而扩展它。RealWorldQA在CC BY-ND 4.0下发布。

译自(有删改)：https://x.ai/blog/grok-1.5v

什么是Grok？

Grok是由xAI开发的生成式人工智能聊天机器人，基于大语言模型（LLM）。它是由埃隆·马斯克发起的一项倡议，作为对OpenAI的ChatGPT的直接回应而开发的，而马斯克是ChatGPT的联合创始人之一。该聊天机器人被宣传为“具有幽默感”，并直接接入Twitter（X）。

时间线

2024年3月11日，马斯克在X上发布消息称语言模型将在一周内开源，六天后，即3月17日，Grok开始开源。
2024年3月17日，Grok-1以Apache-2.0许可证的形式开源。
2024年3月26日，马斯克宣布Grok将对所有高级订阅用户开放，而不仅仅是高端层级的Premium+。
3月29日，Grok-1.5发布，具有“改进的推理能力”和128,000个token的上下文长度。

本文转载自公众号AIGC最前线

原文链接：https://mp.weixin.qq.com/s/-EAuLUPqWVjbyaKgizL7vA

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

Grok

多模态大模型

已于2024-4-16 10:14:44修改

相关推荐

马斯克的 Grok AI 开源

jiecho • 5746浏览 • 0回复
最强开源大模型易主，号称超过Llama 2、Mixtral、Grok-1的DBRX是什么？

liutao988 • 3108浏览 • 0回复
超越GPT-4V，苹果多模态大模型上新！

duhorse • 2169浏览 • 0回复
8B文字多模态大模型指标逼近GPT4V，字节、华师、华科联合提出TextSquare

轻薄滴假象 • 2305浏览 • 0回复
14 项任务测下来，GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力？

轻薄滴假象 • 2199浏览 • 0回复
革新GUI自动化：V-Zen模型引领多模态语言模型新纪元

AI论文解读 • 2676浏览 • 0回复
多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯优图

Crystalcxt • 2781浏览 • 0回复
什么是多模态大模型？为什么需要多模态大模型？

AI探索时代 • 4090浏览 • 0回复
马斯克突发新版大模型，牺牲特斯拉资源叫板OpenAI，Grok-2一手实测来了

Crystalcxt • 1646浏览 • 0回复
多模态与伪多模态大模型

AI探索时代 • 1971浏览 • 0回复
多模态大模型最全综述导读

shizhi02 • 2422浏览 • 0回复
多模态大模型：基础架构

鲁班模锤1 • 1943浏览 • 0回复
什么是多模态大模型

AI探索时代 • 2408浏览 • 0回复
多模态大模型数据构造方法

shizhi02 • 2224浏览 • 0回复
Jina CLIP v2：为多模态RAG设计的向量模型

kede96 • 2644浏览 • 0回复
说好年底推出的“重大飞跃”的Grok 3，迟迟未现身！

51CTO技术栈 • 1658浏览 • 0回复
大语言模型都有哪些特质？区分度达97%！DeepSeek&ChatGPT&Claude&Grok&Gemini

angel • 1710浏览 • 0回复
xAI 发布地表最强大模型Grok 3，同时宣布将开源Grok2

Syrupup • 1323浏览 • 0回复
Grok 3 与 DeepSeek-R1 是怎么学会思考的？

机器学习与数学 • 2561浏览 • 0回复

angel

LV.9

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

325

帖子

3027

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

Grok多模态大模型Grok-1.5V来了！原创

能力

示例1：看图表写代码

示例3：从一幅图画到一个睡前故事

示例4：解释一个网络迷因

示例5：将表格转换为 CSV 格式

示例6：帮助处理露台上腐烂的木材

示例7：解决编程问题

实现真实世界理解

目录

51CTO

51CTO博客

51CTO学堂

Grok多模态大模型Grok-1.5V来了！ 原创

能力

示例1：看图表写代码

示例3：从一幅图画到一个睡前故事

示例4：解释一个网络迷因

示例5：将表格转换为 CSV 格式

示例6：帮助处理露台上腐烂的木材

示例7：解决编程问题

实现真实世界理解

目录

Grok多模态大模型Grok-1.5V来了！原创